слой слой слой слой слой слой CREATI O REȚEA NEURALĂ Idei matematice care stau la baza funcționării rețelelor neuronale și crearea pas cu pas a propriei rețele neuronale în Python CREATI O REȚEA NEURALĂ FĂ-ȚI PROPRIUL NEURAL REŢEA de Tariq Rashid creează spațiu NOI CREĂM NEURAL NET Tariq Rashid ATSDLЁKSHIKA Moscova • Sankt Petersburg • Kiev BBK - C UDC Editura informatică „Dialectică” redactor-șef S N Trigub Cap editat de V R Ginzburg Traducerea din engleză și editarea Ph D chimic Științe A G Guzikevici Pentru întrebări generale, vă rugăm să contactați editura Dialectika la: info@dialektika com, http://www dialektika com Rashid, Tariq C Creați o rețea neuronală : Per din engleza - Sankt Petersburg : SRL Alfa-kniga, - p : bolnav — Paralel tit Engleză ISBN - - - - (rusă) BBK - Toate numele produselor software sunt mărci comerciale înregistrate ale companiilor respective Nicio parte a acestei publicații nu poate fi reprodusă în niciun scop, sub nicio formă sau prin orice mijloc, electronic sau mecanic, inclusiv fotocopiere și înregistrare pe suport magnetic, fără permisiunea scrisă a autorului, Tarik Rashid Traducere autorizată în rusă a ediției în limba engleză a Creați-vă propria rețea neuronală (ISBN - ) © de Tariq Rashid Această traducere este publicată și vândută cu permisiunea lui Tariq Rashid, care deține sau controlează toate drepturile de a publica și vinde aceeași traducere Drepturi AI rezervate Nicio parte a acestei cărți nu poate fi reprodusă sau transmisă sub nicio formă sau prin orice mijloace, electronice sau mecanice, inclusiv fotocopiere, înregistrare sau prin orice sistem de stocare sau recuperare a informațiilor, fără permisiunea prealabilă scrisă a proprietarului dreptului de copiere și a editorului Publicație științifică populară Tariq Rashid Crearea unei rețele neuronale Л Н Красножан О,В Мишу шина Е П Дынник ЛА Гордиенко Л Н Красножан О,В Мишу шина Е П Дынник ЛА ГордиенкоEditor literar Layout Art Editor Coritor de corecturi OOO Alfa-kniga, , Sankt Petersburg, str Magnitogorskaya, ISBN - - - - (рус ) ISBN - (англ ) ISBN - - - - (рус ) ISBN - (англ )© , Dialectics Computer Publishing, traducere, design, layout © de Tariq Rashid Cuprins Prolog Introducere Capitolul Cum funcționează rețelele neuronale Capitolul Construirea unei rețele neuronale în Python Capitolul Câteva proiecte interesante Epilog Anexa A O scurtă introducere în calcul Anexa B Rețeaua neuronală pe Raspberry Pi Index Conţinut Despre autor Prolog Încercările de a crea mașini inteligente Natura a inspirat o nouă epocă de aur Introducere Pentru cine este aceasta carte ? Ce vom face Cum o vom face Observații suplimentare Aștept cu nerăbdare feedback-ul dvs ! optsprezece Capitolul Cum funcționează rețelele neuronale dificil pentru altul Mașină predictivă simplă Problemele de clasificare și prognoză sunt foarte apropiate Antrenamentul simplu al clasificatorului Uneori un singur clasificator nu este suficient Neuronii sunt computere create de natură Propagarea semnalelor printr-o rețea neuronală Ce lucru grozav este - multiplicarea matricei! Un exemplu de utilizare a înmulțirii matriceale într-o rețea cu trei straturi Ajustarea coeficienților de greutate în procesul de antrenare a unei rețele neuronale Propagarea înapoi a erorilor de la mai multe noduri de ieșire Propagarea înapoi a erorilor pentru mari numărul de straturi Descrierea retropropagarii folosind algebra matriceală de greutăți Actualizarea greutății Exemplul Pregătirea datelor Valori de intrare Valori de ieșire Greutăți aleatorii ale semințelor Capitolul Construirea unei rețele neuronale în Python Python Python interactiv = IPython O introducere simplă în Python Caiete Python are doar Automatizarea muncii Comentarii Funcții Matrice Reprezentarea grafică a tablourilor Obiecte Proiect de rețea neuronală în Python Cod schelet Inițializarea rețelei Greutățile sunt inima rețelei Opțional: opțiune îmbunătățită de inițializare coeficienți de greutate Sondaj de rețea Starea actuală a codului Antrenament de rețea Codul complet al rețelei neuronale MNIST set de cifre scrise de mână datelor de antrenament MNIST Testarea rețelei neuronale Antrenarea și testarea rețelei neuronale folosind baza de date completă Îmbunătățirea rezultatelor: stabilirea unui factor de învățare de Îmbunătățirea rezultatelor: repetarea repetată a ciclurilor de antrenament Modificați configurația rețelei Rezumând Cod final Capitolul Câteva proiecte interesante Scrisul propriu Să intrăm în „creierul” rețelei neuronale Cutia neagră misterioasă Cereri de returnare Marcatorul „ ” Alte imagini Crearea de noi date de antrenament: rotații Epilog Anexa A O scurtă introducere în calcul Linia directa Linie dreaptă înclinată Linia curbă Utilizarea manuală a calculului diferențial O aplicație îmbunătățită a calculului care permite automatizarea Calcul diferențial fără utilizarea graficelor Modele Funcțiile funcției Ai stăpânit calculul diferențial! Anexa B Rețeaua neuronală pe Raspberry Pi Instalarea IPython Verificarea stării de sănătate a programelor Antrenarea și testarea unei rețele neuronale Succesul Raspberry Pi Index Despre autor Tariq Rashid este un expert în analiza cantitativă a datelor și dezvoltarea de soluții open source Are o diplomă în fizică și un master în Machine Learning și Data Mining Tariq este un mare fan al Python și îi place să predea limba începătorilor Cu sediul la Londra, el conduce un grup local de dezvoltare Python (de aproximativ de membri ), organizează numeroase seminarii și este un vorbitor frecvent la conferințe internaționale Prolog Încercările de a crea mașini inteligente De mii de ani, omenirea a încercat să dezlege misterul modului în care funcționează creierul și să creeze dispozitive care pot gândi Am inventat brichete cu cremene cu care putem lua foc în orice moment, blocuri pentru ridicarea greutăților și chiar și calculatoare capabile să ne facă calcule, dar toate aceste dispozitive simple mecanice și electronice care ne ușurează viața nu ne mai mulțumesc Acum dorim să automatizăm sarcini mai complexe, cum ar fi gruparea de fotografii similare, separarea celulelor bolnave de cele sănătoase și chiar jocul de șah Aparent, rezolvarea unor astfel de probleme necesită inteligență umană, sau cel puțin niște capacități misterioase ale psihicului uman, pe care nu le vei găsi în dispozitive simple precum calculatoarele Ideea de mașini cu inteligență asemănătoare omului este seducătoare și terifiantă în egală măsură și a dat naștere la multe fantezii și temeri în societate cu privire la acest subiect HAL incredibil de capabil, dar și extrem de periculos din filmul A Space Odyssey Stanley Kubrick, luptă împotriva roboților în franciza de film incitantă Terminator și o mașină vorbitoare KITT cu o personalitate distinctă în serialul TV clasic Knight Rider - acestea sunt doar câteva dintre numeroasele exemple posibile Când campionul mondial de șah, Garry Kasparov, a fost învins de computerul IBM Deep Blue în , nu numai că ne-am bucurat de această realizare istorică, dar ne -am gândit și la posibilele pericole ale inteligenței mașinilor năprasnice Interesul pentru mașinile inteligente a fost atât de mare încât unii inventatori nu au putut rezista tentației de a merge la o înșelăciune directă a publicului, recurgând la tot felul de trucuri si trucuri Când secretul mașinii de șah turc a fost deschis, s-a dovedit că în interiorul cutiei se ascundea un jucător - o persoană care a mutat piesele printr-un sistem de pârghii Natura a inspirat o nouă epocă de aur Optimismul și ambiția pentru inteligența artificială au crescut la noi culmi după formalizarea subiectului în anii Succesele inițiale au fost marcate de dezvoltarea calculatoarelor care jucau jocuri simple și dovedeau teoreme Unii erau convinși că mașinile cu inteligență la nivel uman vor apărea în următorii zece ani Cu toate acestea, inteligența artificială s-a dovedit a fi o nucă greu de spart, iar progresele ulterioare au blocat Realizarea dificultăților teoretice a dat o lovitură zdrobitoare ambițiilor creatorilor de inteligență artificială, urmată de reduceri de finanțare și o pierdere a interesului în acest domeniu de cercetare Se părea că mașinile, cu logica lor hardware rigidă constând în întregime din și , nu ar putea niciodată concura cu flexibilitatea organică, uneori neclară, a proceselor de gândire ale creierului biologic După o perioadă de progres relativ lent , a apărut o idee incredibil de puternică despre cum să scoți cercetarea AI din rutina obișnuită De ce să nu încerci să creezi un creier artificial prin copierea creierului biologic? Un creier adevărat cu neuroni în loc de porți logice, înzestrat cu capacitatea de a face inferențe și necontrolat de algoritmi absolutiști alb-negru tradiționali Oamenii de știință s-au inspirat din aparenta simplitate a creierului albinelor sau papagalilor în comparație cu complexitatea sarcinilor pe care le puteau rezolva Un creier nu mai mare de o fracțiune de gram a demonstrat capacitatea de a controla zborul și de a se adapta la vânt, de a recunoaște hrana și prădătorii și de a lua decizii rapide dacă să lupte sau să fugă Cercetătorii s-au interesat dacă computerele, cu resursele lor electronice enorme, ar putea imita funcționarea unui astfel de creier și chiar pot realiza mai mult Dacă creierul unei albine are aproximativ de neuroni, pot computerele de astăzi, cu gigaocteții și terabyții lor de resurse de memorie, să depășească albinele? Dar atunci când se folosesc abordări tradiționale pentru rezolvarea problemelor, chiar și supercalculatoarele cu cantități uriașe de memorie și procesoare super-rapide nu ar putea oferi ceea ce este capabil creierul unei păsări sau al unei albine Ideea de a proiecta dispozitive de calcul inteligente în imaginea și asemănarea sistemelor biologice a condus la crearea teoriei rețelelor neuronale, care a devenit una dintre cele mai puternice și utile abordări ale dezvoltării inteligenței artificiale Dacă vorbim despre realizările de astăzi, atunci, de exemplu, rețelele neuronale sunt principala activitate a companiei Deepmind (acum deținută de Google), care a obținut astfel de succese fantastice precum crearea unei rețele neuronale care să învețe să joace jocuri video și alta care a reușit să câștige în jocul incredibil de dificil al unui mare maestru de clasă mondială Rețelele neuronale formează deja nucleul multor tehnologii de zi cu zi , cum ar fi sistemele automate de recunoaștere a plăcuțelor de înmatriculare sau sistemele de citire a codurilor poștale scrise de mână În această carte, vă voi spune despre rețelele neuronale, cum funcționează acestea și cum să vă creați propria rețea neuronală care poate învăța să recunoască caracterele scrise de mână (o sarcină care este foarte dificil de rezolvat cu abordările tradiționale de calculator) Introducere Pentru cine este această carte? Această carte este destinată tuturor celor care doresc să înțeleagă ce sunt rețelele neuronale Se adresează celor care doresc să creeze și să utilizeze propriile rețele neuronale, precum și să aprecieze simplitatea elegantă a ideilor matematice care stau la baza funcționării rețelelor neuronale Acest ghid nu este destinat matematicienilor și informaticienilor Nu vi se cere să aveți cunoștințe sau cunoștințe speciale de matematică într-o sumă care depășește cursul școlar Dacă știți să efectuați operații aritmetice simple, atunci vă puteți crea propria rețea neuronală Cel mai complex lucru pe care îl vom folosi sunt gradienții, dar acest concept va fi și explicat pentru ca majoritatea cititorilor să nu aibă dificultăți în acest sens Pentru cititorii sau studenții curioși, cartea poate servi drept rampă de lansare pentru o călătorie ulterioară în lumea fascinantă a inteligenței artificiale Înțelegând esența modului în care funcționează rețelele neuronale, veți putea aplica ideile de bază pentru a rezolva o mare varietate de probleme Educatorii pot folosi acest ghid pentru a explica rețelele neuronale și cum să le implementeze într-un mod semnificativ pentru studenți, pentru a-i determina să se intereseze de subiect și pentru a-i inspira să creeze propriul sistem AI de învățare cu doar câteva linii de cod Exemplul de cod din această carte a fost testat pe un Raspberry Pi , un computer mic, ieftin, foarte popular printre școlari și studenți Am visat la o astfel de îndrumare când, în adolescență, încercam dureros să înțeleg principiile acestor misterioase rețele neuronale Au fost menționate în cărți, reviste și filme, dar la acea vreme o discuţie serioasă despre ele nu putea fi găsită decât în lucrările ştiinţifice destinate matematicienilor şi scrise în limba lor Cât mi-am dorit atunci ca cineva să-mi explice toate acestea într-un limbaj simplu și de înțeles chiar și pentru un student! Acesta este scopul pe care îl urmăresc în această carte Ce facem În această carte, vom construi o rețea neuronală care poate recunoaște numerele scrise de mână Vom începe cu neuroni predictivi foarte simpli și îi vom îmbunătăți treptat pe măsură ce ajung la limita capacităților lor actuale Din când în când, vom face pauze scurte, astfel încât să puteți învăța următorul set de concepte matematice de care veți avea nevoie pentru a înțelege modul în care rețelele neuronale pot învăța și prezice soluții la probleme În călătoria noastră, vom acoperi concepte matematice precum funcții, clasificatori liniari simpli, îmbunătățirea iterativă, algebra matriceală, optimizarea coborârii gradientului și chiar operațiile de rotație geometrică Dar toate acestea vor fi explicate la un nivel destul de inteligibil, care nu necesită cunoștințe suplimentare în afara celor oferite în cursul de matematică din școală După ce am creat cu succes prima noastră rețea neuronală, ne vom înarma cu experiența noastră și vom explora alte posibile domenii de lucru De exemplu, folosim recunoașterea modelelor pentru a îmbunătăți capacitatea mașinii noastre de a învăța fără a recurge la date suplimentare de antrenament Ne vom uita chiar și în memoria rețelei neuronale pentru a vedea dacă putem găsi ceva ascuns acolo și nu există multe tutoriale care să vă arate cum! În plus, pe măsură ce ne construim rețeaua neuronală pas cu pas, vom învăța Python , un limbaj de programare simplu, util și foarte popular Din nou, nu este necesară nicio experiență anterioară de programare sau familiaritate Cum o vom face Scopul principal al cărții este de a explica conceptele care stau la baza rețelelor neuronale cât mai multor cititori Aceasta înseamnă că punctul nostru de plecare va fi întotdeauna o idee mai mult sau mai puțin clară pentru tine, cu care ești deja familiarizat În plus, pornind treptat pe baza de încredere deja existentă, vom atinge un nivel suficient pentru a putea aprecia un nou aspect interesant al rețelelor neuronale Pentru a nu pierde din vedere cele mai importante puncte, autorul omite în mod deliberat discutarea problemelor, a căror înțelegere nu este necesară pentru a vă crea propria rețea neuronală Vom avea de-a face cu multe contexte interesante și subiecte conexe care ar putea fi de interes pentru unii cititori, iar dacă sunteți un astfel de cititor, atunci aveți libertate deplină de acțiune pentru propria dvs cercetare în direcții specifice Cartea nu și-a propus să spună despre toate modalitățile posibile de optimizare și îmbunătățire a rețelelor neuronale Există multe astfel de modalități , iar analiza lor ne-ar distrage atenția de la scopul principal de a introduce cititorii în ideile principale la un nivel cât mai simplu și cât mai inteligibil Materialul cărții este împărțit în trei capitole Capitolul discută ideile matematice din spatele modului în care funcționează rețelele neuronale simple Autorul nu atinge în mod intenționat nimic legat de programare aici pentru a concentra atenția cititorului asupra prevederilor de bază ale teoriei Capitolul vă prezintă limbajul de programare Python suficient pentru a implementa rețeaua noastră neuronală Vom antrena această rețea să recunoască cifrele scrise de mână și să testăm cât de bine funcționează În capitolul , vom merge puțin mai departe decât este necesar pentru a înțelege rețelele neuronale simple și vom lucra doar pentru plăcerea noastră Vom încerca idei pentru a îmbunătăți și mai mult funcționarea rețelei noastre neuronale, precum și să ne uităm în interiorul rețelei instruite pentru a vedea dacă putem înțelege ce a învățat deja și cum ia decizii voi avertiza în avans că nu trebuie să vă faceți griji cu privire la cumpărarea instrumentelor software necesare, deoarece vom folosi doar software gratuit și open source, astfel încât nu va trebui să plătiți pentru nimic Tot codul din carte a fost testat pe un computer foarte ieftin Raspberry Pi Zero ( USD) Cum să porniți acest computer este descris în anexă Note Aditionale Voi considera că am eșuat în sarcina mea dacă citirea cărții nu vă va face să simțiți uimire și admirație autentică pentru progresele din matematică și informatică Voi considera că nu mi-am făcut față sarcinii mele dacă nu pot să vă dovedesc în mod convingător că chiar și cunoașterea cursului școlar de matematică și tehnici simple de calculator sunt destul de suficiente pentru a implementa cele mai îndrăznețe idei, de exemplu, pentru a crea o inteligență artificială care imită capacitatea creierului uman de a învăța Mă voi considera un eșec dacă nu vă pot insufla încredere în abilitățile voastre și dorința de a continua cercetări în domeniul incredibil de interesant al inteligenței artificiale Fiecare dintre cititori poate contribui la îmbunătățirea cărții și poate informa autorul despre dorințele lor prin e-mail (makeyourownneuralnetwork@gmail com) sau pe Twitter (Smyoneuralnet) O discuție a subiectelor abordate în carte poate fi găsită la următoarea adresă: http://makeyourownneuralnetwork blogspot co uk/ De asemenea, vor fi publicate informații despre erorile tipografice detectate, erorile și corecțiile Aștept cu nerăbdare feedback-ul dvs ! Tu, cititorul acestei cărți, ești principalul ei critic Apreciem opinia dumneavoastră și vrem să știm ce am făcut bine, ce ar fi putut fi făcut mai bine și ce altceva ați dori să vedeți publicat de noi Suntem interesați de oricare dintre comentariile dvs pentru noi Așteptăm comentariile voastre și le așteptăm cu drag Ne puteți trimite o lucrare sau un e-mail, sau pur și simplu vizitați site-ul nostru web și lăsați comentariile dvs acolo Într-un cuvânt, în orice mod convenabil pentru dvs , spuneți-ne dacă vă place această carte și, de asemenea, exprimați-vă părerea despre cum să facem cărțile noastre să fie mai interesante pentru dvs Când trimiteți o scrisoare sau un mesaj, nu uitați să includeți titlul cărții și autorii acesteia, precum și adresa dvs de retur Vom citi cu atenție opinia dumneavoastră și ne asigurăm că o ținem cont atunci când alegem și ne pregătim pentru publicarea de noi cărți Adresele noastre de e-mail: mail info@dialektika com WWW: http : //www dialektika corn Adresele noastre poștale: în Rusia: , St Petersburg, str Magnitogorskaya, , caseta în Ucraina: , Kiev, PO Box CAPITOLUL Cum funcționează rețelele neuronale Ceea ce este ușor pentru unul este dificil pentru altul Calculatoarele nu sunt, în esență, nimic mai mult decât calculatoare capabile să efectueze operații aritmetice cu o viteză extraordinară Această caracteristică a calculatoarelor îi face să îndeplinească sarcini similare cu cele care pot fi rezolvate cu calculatoare: adunarea numerelor pentru a determina volumele vânzărilor, aplicarea ratelor dobânzii pentru a calcula taxele sau trasarea graficelor pe baza datelor existente Chiar și vizionarea de programe TV sau ascultarea de muzică în flux prin Internet folosind un computer nu necesită nimic mai mult decât efectuarea de operații aritmetice simple în mod repetat S-ar putea să fii surprins, dar reconstruirea unui cadru video cu toate -urile și -urile care ajung la computer prin rețea se face prin efectuarea aritmeticii doar puțin mai complicată decât adunarea numerelor pe care le-ai învățat la școală Desigur, adăugarea de numere cu o viteză gigantică - mii sau milioane de operații pe secundă - este un efect impresionant, dar nu poate fi numită o manifestare a inteligenței artificiale Chiar dacă este dificil pentru o persoană să adauge numere mari în mintea sa, acest proces nu necesită deloc o inteligență specială Pentru astfel de calcule , este suficient să poți urma instrucțiuni elementare și exact asta se întâmplă în interiorul oricărui computer Acum să dăm totul peste cap și să punem mesele pe computere! Aruncă o privire la ilustrațiile de mai jos și vezi dacă îți este ușor să recunoști ceea ce arată Privind aceste fotografii, putem determina cu ușurință că ele înfățișează oameni, o pisică și, respectiv, un copac Suntem capabili să recunoaștem aproape instantaneu și cu mare precizie obiectele către care ne îndreptăm privirea și, în același timp, greșim foarte rar În procesul de analiză a imaginilor și de clasificare a obiectelor, creierul nostru procesează cantități uriașe de informații Este dificil pentru un computer să rezolve astfel de probleme sau, mai degrabă, este incredibil de dificil O sarcină Un calculator Uman Înmulțirea rapidă a miilor de numere mari Uşor Dificil Recunoașterea unei anumite persoane printre mulțimea din fotografie Dificil Uşor Bănuim că recunoașterea modelelor necesită inteligență umană, ceva ce le lipsește mașinilor, indiferent cât de complexe și puternice le facem, și asta pentru că nu sunt oameni Dar acesta este exact tipul de sarcină la care ne-am dori ca computerele să fie mai eficiente, deoarece rulează mai repede și nu obosesc niciodată La rândul său, tocmai pentru rezolvarea unor astfel de probleme se lucrează la crearea inteligenței artificiale Desigur, computerele vor începe întotdeauna cu electronica și, prin urmare, sarcina inteligenței artificiale este să găsească rețete, sau algoritmi bazați pe noi abordări pentru rezolvarea problemelor dificile în cauză rezumat Unele sarcini, cum ar fi înmulțirea a milioane de perechi de numere, sunt ușoare pentru un computer, dar dificile pentru un om Dar există și sarcini, cum ar fi, de exemplu, recunoașterea fețelor oamenilor dintr-o mulțime într-o fotografie, care sunt dificile pentru un computer, dar simple pentru o persoană O simplă mașină de predicție Să începem simplu și să creștem treptat dificultatea Imaginați-vă o mașină de predicție simplă (predictor) care primește o întrebare, efectuează un proces de „gândire” și produce un răspuns Totul se întâmplă la fel ca în exemplul de recunoaștere a modelelor de mai sus, în care informațiile de intrare au fost percepute de ochii noștri, apoi creierul nostru a analizat imaginea, după care am tras concluzii despre ce obiecte sunt în această imagine Aceasta poate fi reprezentată folosind următoarea diagramă Dar computerele nu pot gândi cu adevărat (nu uitați, sunt doar calculatoare avansate), așa că folosim o terminologie diferită care se potrivește mai bine cu ceea ce se întâmplă de fapt ввод ввод вывод вывод Calculatorul preia intrare, efectuează unele calcule și produce un rezultat Acest proces este reprezentat schematic în ilustrația următoare Informațiile de intrare date în forma „ x ” sunt procesate, eventual înlocuind operația de înmulțire cu operații de adunare mai simple, și se produce rezultatul de ieșire „ ” ввод ввод вывод вывод S-ar putea să vă gândiți: „Deci, ce este atât de special la asta?” Nu-ți face griji, totul este bine Pentru moment, folosim exemple simple și binecunoscute pentru a introduce concepte care vor fi aplicate ulterior unor rețele neuronale mai interesante Să facem un pic mai dificil Imaginează-ți că o mașină trebuie să transforme kilometri în mile километры километры мили мили Să presupunem că formula care transformă kilometri în mile ne este necunoscută Tot ce știm este că aceste unități de măsură sunt legate liniar Aceasta înseamnă că dacă dublăm numărul de mile, atunci și numărul de kilometri corespunzători unei distanțe date se va dubla O astfel de dependență este percepută de noi intuitiv Existența unei relații liniare între kilometri și mile ne oferă un indiciu asupra formulei de calcule Ar trebui să arate astfel: mile = kilometri x s, unde c este o constantă a cărei valoare nu o cunoaștem încă Singurele indicii suplimentare pe care le putem avea sunt exemple individuale de exprimare corectă a distanțelor în kilometri și mile Aceste exemple vor acționa ca și cum ar fi în rolul datelor experimentale care reflectă adevărata stare a lucrurilor, pe care le folosim pentru a ne testa teoria științifică exemplu adevărat Kilometri Miles unu , Ce trebuie să facem pentru a determina valoarea lipsă a constantei? Să înlocuim doar o valoare aleatoare în formulă! De exemplu, să presupunem c= , și vedeți ce se întâmplă Aici înlocuim în formula mile = kilometri x cu valoarea în loc de kilometri iar valoarea curentă de probă este , în loc de constanta c Drept urmare, obținem răspunsul: mil Bine atunci Acest lucru nu este deloc rău, având în vedere că valoarea c= , a fost aleasă aleatoriu! Dar știm că nu este complet corect, deoarece exemplul al raportului adevărat ne spune că răspunsul corect este , Am greșit până la Acest număr reprezintă mărimea erorii , adică diferența dintre valoarea adevărată din lista noastră de exemple și valoarea calculată eroare = adevărat - calcul = , - = , расчетные мили расчетные мили правильный ответ правильный ответ eroare Ce urmeaza? Știm că am făcut o greșeală și știm amploarea greșelii În loc să vedem această eroare ca o cauză de disperare , folosim aceste informații pentru a sugera o valoare de probă mai bună pentru constanta c decât prima Să revenim la eroare Am greșit cu spre valori mai mici Deoarece formula de conversie a kilometrilor în mile este liniară, mile = kilometri x s, știm că creșterea c va crește valoarea rezultată Să modificăm puțin c înlocuind cu și să vedem ce se întâmplă Setarea c la , ne oferă mile = kilometri x c = x , = Acesta este deja mai bun decât răspunsul anterior de Progres clar! Acum eroarea a scăzut la Este foarte posibil să suportăm o astfel de greșeală расчетные мили расчетные мили eroare Lucrul important aici este că mărimea erorii ne-a spus în ce direcție trebuie corectată valoarea lui c Am vrut să creștem producția cu , așa că am crescut puțin c În loc să folosim algebra pentru a găsi cantitatea exactă de corecție pentru a schimba valoarea lui c, vom continua să folosim abordarea de a rafina treptat valoarea acestei constante Dacă nu sunteți sigur de corectitudinea acestei abordări și credeți că ar fi mult mai ușor să determinați imediat răspunsul exact, atunci rețineți că există multe mai multe probleme interesante pentru care nu există formule matematice simple care să facă legătura între intrare și ieșire unul faţă de celălalt valori De aceea avem nevoie de metode mai sofisticate, cum ar fi rețelele neuronale Să repetăm ceea ce știm deja Rezultatul de ieșire de este încă prea mic Să modificăm din nou constanta c, crescând valoarea ei de la , la , Oh nu! Am exagerat și am obținut un rezultat care a depășit răspunsul corect Eroarea anterioară a fost , iar acum este - Semnul minus indică pur și simplu că, în loc să subestimeze rezultatul adevărat, acesta a fost supraestimat (reamintim că valoarea erorii este determinată de expresia valoare corectă minus valoarea calculată) Deci c= b a fost mult mai bun decât c= Acum am putea accepta magnitudinea erorii la c = , ca fiind satisfăcătoare și am putea termina acest exercițiu Dar totuși vom merge puțin mai departe De ce nu încercăm să facem o corecție foarte mică și să creștem c de la , la , ? Acest lucru ne oferă un rezultat mult mai bun decât cele anterioare, deoarece valoarea de ieșire de diferă acum de valoarea corectă de , cu doar , Deci, ultima încercare ne-a învățat că valoarea corecției la valoarea lui c trebuie determinată din nou de fiecare dată Dacă rezultatul este aproape de răspunsul corect, de ex dacă eroarea scade, atunci valoarea de corecție nu trebuie lăsată aceeași Astfel evităm să supraestimăm valoarea în comparație cu cea adevărată, așa cum am făcut înainte Din nou, fără a fi distras de căutarea modalităților exacte de determinare a valorii lui c și încă ne concentrăm pe ideea rafinării sale treptate, putem presupune că corecția ar trebui să fie exprimată printr-o anumită fracțiune a erorii Acest lucru este intuitiv: o eroare mare indică necesitatea unei corecții mai mari , în timp ce o eroare mică necesită o corectare mică Credeți sau nu, ceea ce tocmai am făcut transmite esența procesului de antrenament al rețelei neuronale Am antrenat mașina astfel încât predicțiile sale să devină din ce în ce mai precise Ar trebui să facem o scurtă pauză pentru a reflecta la următoarele : nu am găsit soluția exactă a problemei într-un singur pas, așa cum se face adesea atunci când rezolvăm probleme școlare sau științifice În schimb, am adoptat o abordare complet diferită, constând în încercări repetate de a verifica valoarea de probă și de a o rafina Astfel de procese sunt uneori numite iterative, ceea ce înseamnă doar îmbunătățirea treptată, pas cu pas, a rezultatului dorit rezumat Toate sistemele informatice utile au canale de intrare și de ieșire între care se efectuează unele calcule asupra datelor În cazul rețelelor neuronale, nu este cazul Dacă nu cunoaștem principiile exacte ale modului în care funcționează un sistem, atunci încercăm să ne facem o idee despre cum funcționează folosind un model cu parametri ajustabili Dacă nu am ști cum să convertim kilometri în mile, am putea folosi o funcție liniară în acest scop ca model cu înclinare reglabilă O modalitate bună de a îmbunătăți astfel de modele este reglarea parametrilor pe baza comparației rezultatelor modelului cu rezultatele exacte din exemplele cunoscute Problemele de clasificare și predicție sunt foarte apropiate Am numit mașina simplă descrisă mai devreme o mașină predictivă , deoarece preia intrare și face un fel de predicție despre ceea ce ar trebui să fie rezultatul Am îmbunătățit predicțiile prin ajustarea parametrului intern în funcție de magnitudinea erorii, care a fost determinată prin compararea predicției cu o valoare exactă cunoscută Aruncă o privire la ilustrația de mai jos, care arată o diagramă care reprezintă rezultatele măsurării dimensiunii gândacilor de grădină Lungimea și lățimea gândacilor de grădină Diagrama arată clar două grupuri de date Omizile sunt mai înguste și mai lungi, în timp ce gărgărițele sunt mai late și mai scurte Vă amintiți predictorul nostru care a încercat să calculeze corect numărul de mile corespunzător unui anumit număr de kilometri ? Acest predictor s-a bazat pe o funcție liniară reglabilă Sper să vă amintiți că rezultatul unei funcții liniare față de intrarea acesteia este o linie dreaptă Modificarea parametrului reglabil c duce la o modificare a abruptului pantei acestei drepte Ce se întâmplă dacă suprapunem o linie dreaptă pe acest grafic? Lungimea și lățimea gândacilor de grădină Nu putem folosi o linie dreaptă exact așa cum obișnuiam când convertim un număr (kilometri) în altul (mile), dar poate că în acest caz putem separa un tip de date de altul Dacă, în graficul de mai sus, o linie dreaptă separa omizile de gărgărițe, atunci am putea-o folosi pentru a clasifica gândacii necunoscuți pe baza măsurătorilor Cu toate acestea, linia existentă nu este la înălțime, deoarece jumătate dintre omizi sunt de aceeași parte a liniei cu gărgărițele Să tragem o altă linie schimbând panta și să vedem ce se întâmplă Lungimea și lățimea gândacilor de grădină De data aceasta linia a fost și mai puțin utilă, pentru că nu prea desparte un fel de gândac de altul Să mai facem o trecere Iată o altă chestiune! Linia separă clar omizile de buburuze Acum îl putem folosi ca clasificator pentru gândaci Presupunem că nu există alte specii de gândaci decât cele prezentate în diagramă, dar în această etapă acesta nu este un dezavantaj al abordării - pur și simplu încercăm să ilustrăm esența ideii unui simplu clasificator Acum imaginați-vă că data viitoare când computerul nostru va folosi robotul pentru a selecta următorul gândac și pentru a face măsurătorile necesare Apoi, linia rezultată poate fi folosită pentru a atribui corect gândacul familiei de omizi sau familiei de gărgărițe Privind graficul următor, veți vedea că gândacul necunoscut aparține familiei de omizi deoarece se încadrează în zona de deasupra liniei În ciuda simplității sale, această clasificare este deja un instrument destul de puternic! Clasificarea unui gândac necunoscut gândac necunoscut Tocmai ați avut ocazia să vedeți cât de utili pot fi predictorii liniari ca instrument de clasificare a datelor primite Cu toate acestea, am trecut cu vederea un punct important Cum știm ce panta a unei drepte este potrivită? Cum poate fi îmbunătățită o linie dacă nu separă în mod corespunzător două soiuri de gândaci? Răspunsul la această întrebare este, de asemenea, cel mai direct legat de capacitatea unei rețele neuronale de a învăța, pe care o vom lua în considerare acum Antrenament simplu de clasificator Acum ne vom antrena (învăța) clasificatorul nostru liniar și îl vom învăța să clasifice corect gândacii, referindu-i la omizi sau gărgărițe După cum ați văzut mai devreme, este vorba despre rafinarea pantei dreptei de despărțire care separă un grup de puncte de date corespunzătoare perechilor de valori ale lungimii și lățimii dintr-un grafic de altul Cum o vom face? În loc să dezvoltăm în avans o teorie științifică adecvată , găsim calea corectă prin încercare și eroare Acest lucru ne va permite să înțelegem mai bine matematica din spatele acestor acțiuni Avem nevoie de exemple pentru a antrena clasificatorul Pentru a nu ne complica viața, ne vom limita la două exemple simple date mai jos Exemplu Lăţime Lungime Gândac unu Buburuză Omida Avem un exemplu de gândac care are o lățime de , și o lungime de , , despre care știm că este o gărgăriță Al doilea exemplu se referă la un gândac care are o lungime mai mare de , și o lățime mai mică de , , care este o omidă Știm că datele din acest set de exemple sunt adevărate Cu ajutorul lor se va specifica valoarea constantei din funcția de clasificator Exemplele cu valori adevărate care sunt folosite pentru a antrena un predictor sau un clasificator se numesc date de antrenament Să reprezentăm aceste două exemple de date de antrenament într-o diagramă Vizualizarea datelor vă ajută adesea să înțelegeți mai bine natura lor, să le simțiți, ceea ce nu este ușor de realizat doar privind o listă sau un tabel plin cu numere Date de antrenament pentru clasificarea gândacilor omida buburuză Să începem cu o linie de despărțire aleatorie, pentru că trebuie să începi de undeva Reamintim funcția liniară din exemplul de conversie a kilometrilor în mile, al cărui parametru l-am ajustat Putem face același lucru acum, deoarece linia de despărțire este dreaptă în acest caz: y = ah Folosim în mod deliberat numele x și y aici, mai degrabă decât lungimea și lățimea, deoarece, strict vorbind, linia nu servește ca un predictor în acest caz Nu convertește lățimea în lungime, deoarece kilometrii erau convertiți anterior în mile În schimb, acționează ca o linie de despărțire, un clasificator Probabil ați observat forma incompletă a ecuației y=Ax, deoarece ecuația completă a unei linii drepte este: y=Ax+B Păstrăm în mod intenționat acest scenariu al gândacului de grădină cât se poate de simplu Valoarea diferită de zero a lui B corespunde pur și simplu unei linii care nu trece prin originea diagramei , ceea ce nu adaugă nimic nou scenariului nostru S-a arătat anterior că parametrul A controlează panta dreptei Cu cât A este mai mare, cu atât panta este mai abruptă Pentru început, să presupunem că A \u d , Apoi linia de despărțire este descrisă de ecuația y= , x Să trasăm această linie grafic pe aceeași diagramă cu datele de antrenament Date de antrenament pentru clasificarea gândacilor Datorită graficului, fără calcule, vedem imediat că linia y \u d , x nu este un clasificator bun Nu separă un tip de gândac de altul De exemplu, nu putem face afirmații de genul „Dacă punctul de date este deasupra liniei, atunci corespunde unei omidă”, deoarece exact acolo se află datele gărgăriței În mod intuitiv, înțelegem că marginea dreaptă a liniei ar trebui să fie ușor ridicată Vom rezista tentației de a face acest lucru, uitându-ne la diagramă și desenând cu mâna linia corespunzătoare Vrem să vedem dacă putem găsi o rețetă repetabilă potrivită pentru aceasta, o secvență de instrucțiuni pe care informaticienii o numesc algoritm Să ne uităm la primul exemplu de antrenament, corespunzător gărgăriței: lățimea este de , și lungimea de , Dacă ar fi să testăm funcția y=Ax cu acest exemplu, unde x este , , am obține următorul rezultat: y \u d ( , ) * ( , ) \u d , O funcție care setează parametrul A la o valoare inițială aleatorie de , spune că pentru un gândac de , lățime, lungimea ar trebui să fie de , Știm că este prea mic, deoarece datele de antrenament arată că lungimea bug-ului este de , Deci, există o discrepanță sau o greșeală La fel ca în exemplul cu predictorul care convertește kilometri în mile, putem folosi valoarea acestei erori pentru a obține informații despre modul de ajustare a parametrului A Dar mai întâi, să ne gândim care ar trebui să fie valoarea lui y Dacă îl setăm egal cu , , atunci linia va trece prin punctul cu coordonatele (x, y) = ( , ; , ), gărgăriță asortată Acest lucru în sine nu este rău, dar nu este exact ceea ce avem nevoie Vrem ca linia să treacă peste acest punct De ce? Da, pentru că vrem ca punctele de date ale gărgăriței să se afle sub linie, nu pe ea Linia ar trebui să servească drept separator între punctele de date despre gărgăriță și omidă, nu să prezică lungimea gândacului de la o lățime cunoscută În acest sens, să încercăm să urmărim valoarea y= , la x= , Este doar puțin mai mare decât , În schimb, s-ar putea lua o valoare de , sau , , dar nu sau , pentru că, cu un grad mare de probabilitate, acest lucru este salut la faptul că linia va trece peste toate punctele de date, atât gărgărițe, cât și omizi, ca urmare, va deveni complet inutil ca separator Prin urmare, alegem o valoare țintă de , și determinăm eroarea E folosind următoarea formulă: eroare = valoarea țintă dorită - rezultatul real Sau (după înlocuirea valorilor): E \u d , - , \ u d , Având în vedere beneficiul vizualizării informațiilor, să aruncăm o privire la graficul de mai jos, care arată grafic eroarea, precum și valorile țintă și calculate Vă întrebați: cum poate ajuta cunoștințele noastre despre valoarea de eroare E la găsirea celei mai bune valori pentru parametrul A? Aceasta este o întrebare foarte importantă Să ne dăm înapoi de la această sarcină pentru un moment și să ne gândim puțin Dorim să folosim eroarea în valoarea lui y, pe care am numit-o E, pentru a găsi modificarea dorită a parametrului A Pentru a face acest lucru, trebuie să știm cum sunt legate aceste două mărimi Care este relația dintre A și E? Dacă am ști asta, atunci am putea înțelege cum o modificare a unei cantități o afectează pe alta Să începem cu o funcție liniară pentru clasificator: y = ah Știm deja că încercările inițiale de a atribui valori de încercare parametrului A au dus la valori y incorecte pe baza datelor de antrenament Fie t o valoare țintă validă Pentru a-l obține, trebuie să introducem o mică corecție la A Pentru astfel de corecții la matematică, se obișnuiește să se folosească simbolul D, adică „mică schimbare” Să scriem ecuația corespunzătoare: t \u d (A + DA) x Să reprezentăm grafic această relație într-o diagramă care arată linii pentru două pante: A și A + DA Amintiți-vă că am definit eroarea E ca diferența dintre valoarea corectă dorită a lui y și valoarea calculată obținută pentru valoarea de probă curentă a lui A Astfel, E = t - y Să scriem explicit: t - y \u d (A + DA) x - Ah Extinzând parantezele și aducând termeni similari, obținem: E \u d t- y \u d Ax + (DA) x - Ah E \u d (DA) x Este pur și simplu minunat! Eroarea E este legată de DA într-o relație foarte simplă Este atât de simplu încât la început chiar m-am îndoit dacă a fost vreo greșeală undeva, dar s-a dovedit a fi adevărat Oricum ar fi, acest raport simplu ne simplifică foarte mult munca Când se face calcule de acest fel, se poate uita cu ușurință de problema inițială Să formulăm în cuvinte simple ceea ce ne-am dorit să realizăm Am vrut să știm cum am putea folosi informațiile de eroare E pentru a determina cât de mult din corecția la A ar schimba panta dreptei, astfel încât clasificatorul să-și poată face treaba mai bine Să transformăm ultima ecuație pentru a găsi expresia pentru DA: DA = E/x Există! Aceasta este expresia magică pe care o căutam Acum putem folosi eroarea E pentru a modifica panta dreptei de clasificare cu DA în direcția dorită Să trecem la treabă - actualizați panta inițială a liniei Când x a fost , , eroarea a fost , Deci DA = E/x devine , / , = , Aceasta înseamnă că valoarea curentă a lui A= , trebuie schimbată la , Rezultă că noua valoare îmbunătățită a lui A este (A + YES), adică , + , = , Este ușor de verificat că valoarea calculată a lui y la noua valoare a lui A este, așa cum era de așteptat, , , valoarea țintă dorită Wow! Am reușit! Totul funcționează și avem o metodă pentru a îmbunătăți parametrul A dacă eroarea curentă este cunoscută Să împingem în sus După ce am terminat cu primul exemplu, să exersăm pe al doilea Ne oferă următoarele date adevărate: x= , și y= , Să vedem ce se întâmplă dacă inserăm x= în funcția liniară , care folosește acum valoarea actualizată A= Se obține y = , * , = , Acest lucru este foarte departe de y= în exemplul de antrenament Folosind același raționament ca și înainte, când găsim o modalitate de a construi o linie care să nu intersecteze datele de antrenament, ci să treacă peste sau sub ea, putem seta valoarea țintă dorită la , În acest caz, datele exemplului de antrenament corespunzătoare omizilor sunt deasupra liniei și nu pe ea Eroarea E este ( , - , ) = , Această eroare este mai mare decât cea anterioară, dar dacă vă gândiți bine, atunci am avut un singur exemplu pentru antrenarea unei funcții liniare , care a deplasat în mod clar funcția în direcția ei Să actualizăm A din nou, așa cum am făcut înainte Raportul ѣk-E/x dă , / , = , Aceasta înseamnă că după următoarea actualizare, parametrul A capătă valoarea , + , = , Rezultă că pentru x= , , funcția returnează , ca răspuns, care este valoarea țintă dorită Am lucrat destul de mult, așa că putem face din nou o pauză și putem vizualiza rezultatele Următoarea diagramă arată linia inițială, linia actualizată după antrenament pe primul exemplu de antrenament și linia finală actualizată pe al doilea exemplu de antrenament Dar asteapta! Ce s-a întâmplat? Privind graficul, vedem că nu am reușit să realizăm panta dreptei pe care ne-am dorit-o Nu oferă o separare suficient de fiabilă a zonelor diagramei ocupate de punctele de date ale gărgărițelor și omizilor Ei bine, ce pot să spun? Am primit ceea ce am cerut Linia este actualizată pentru a se potrivi cu orice țintă am stabilit-o Ceva nu e bine aici? Dar într-adevăr, dacă continuăm așa și mai departe, i e actualizați doar panta pentru următoarea instanță de antrenament, apoi tot ce ajungem de fiecare dată este o linie care trece lângă punctul de date al ultimei instanțe de antrenament Ca rezultat, renunțăm la toate experiența anterioară de învățare pe care am putea-o fi folosit și învățăm doar din cel mai recent exemplu Cum să remediați această situație? Uşor! Și această idee joacă un rol cheie în învățarea automată Facem actualizări fluide , de ex reduceți puțin cantitatea de corecții În loc să înlocuim cu entuziasm A cu o nouă valoare de fiecare dată, folosim doar o fracțiune din corecția DA și nu toată Acest lucru ne permite să ne îndreptăm în direcția sugerată de exemplul de antrenament, dar o facem cu atenție, păstrând o parte din valoarea anterioară, care a fost rezultatul, poate, al multor cicluri de pregătire anterioare Am văzut deja cum funcționează această idee de netezire în exemplul conversiei kilometrilor în mile, atunci când se schimbă parametrul cu doar o fracțiune din eroarea reală Această netezire are un alt efect secundar foarte puternic și util Dacă datele de antrenament nu sunt de încredere și pot conține erori sau zgomot (și măsurătorile reale au de obicei ambii acești factori), atunci netezirea reduce influența acestora Ei bine, să recalculăm, de data aceasta adăugând netezire la formula de actualizare: DA = L (E / x) Factorul de netezire, notat aici ca L, este adesea denumit factorul ratei de învățare Să alegem L= , ca o estimare inițială rezonabilă Aceasta înseamnă că vom folosi o corecție de jumătate din cantitate decât fără netezire Să repetăm toate calculele folosind valoarea inițială A= , Primul exemplu de antrenament ne oferă y = , * , = , Cu o valoare țintă de , , eroarea este , Corecția este DA \u d L (E / x) \u d , * , / , \u d , Valoarea actualizată a lui A este , + , = , Calculând cu această nouă valoare a lui A pentru exemplul de antrenament la x= , dă y= , * , = , , , dar acest rezultat nu este atât de rău, având în vedere că aceasta a fost doar prima încercare Principalul lucru este că ne mișcăm în direcția corectă de la linia originală Să trecem la al doilea set de date de antrenament la x= , Folosind A~ , , obținem y = , * , = , Valoarea dorită a fost , , deci eroarea este ( , - , ) = , Corecție DA \ u d L (E / x) \ u d , * , / , \ u d , Acum valoarea actualizată a lui A este , -I- , = , Să reprezentăm din nou pe diagramă opțiunile de linie inițială, îmbunătățită și finală pentru a vedea că netezirea actualizărilor are ca rezultat o linie de divizare mai satisfăcătoare între regiunile de date gărgăriță și omizi Acesta este într-adevăr un rezultat grozav! Cu doar două exemple simple de antrenament și o metodă de actualizare relativ simplă, folosind netezirea ratei de învățare, am reușit să obținem o linie de divizare frumoasă y=Ax unde A= , foarte rapid Să nu ne subestimăm realizările Am reușit să creăm o metodă automată de clasificare a instruirii prin exemple, care, în ciuda simplității abordării, a demonstrat o eficiență remarcabilă Fabulos! rezumat Pentru a înțelege relația dintre eroarea de ieșire a unui clasificator liniar și parametrul pantei reglabile, este suficient să cunoașteți matematica elementară Cunoscând această relație, se poate determina cantitatea de modificare a pantei necesară pentru a elimina eroarea de ieșire Dezavantajul abordării directe a ajustării parametrilor este că modelul este actualizat pentru a se potrivi cel mai bine doar cu ultimul exemplu de antrenament, în timp ce toate exemplele anterioare nu sunt luate în considerare O modalitate bună de a remedia această deficiență este reducerea cantității de actualizări prin utilizarea unui factor de rată de învățare, astfel încât niciun exemplu de instruire să nu domine procesul de învățare Exemplele de instruire luate din practica reală pot fi distorsionate de zgomot sau pot conține erori Netezirea actualizărilor ajută la limitarea impactului unor astfel de exemple false Uneori un singur clasificator nu este suficient După cum ați văzut, predictorii și clasificatorii simpli pe care i-am analizat, cei care preiau o anumită intrare, efectuează calculele corespunzătoare și returnează un răspuns, sunt destul de eficienți Și totuși, capacitățile lor nu sunt suficiente pentru a rezolva probleme mai interesante, cărora ne propunem să aplicăm metodele rețelelor neuronale Limitările clasificatorului liniar sunt demonstrate mai jos cu un exemplu simplu, dar foarte revelator Dar de ce ar trebui să facem acest lucru în loc să sărim direct în discuția despre rețelele neuronale? Faptul este că unul dintre elementele cheie ale designului rețelelor neuronale depinde de înțelegerea esenței acestor restricții , așa că această problemă merită discutată Ne vom îndepărta de subiectul insectelor de grădină și ne vom întoarce la funcțiile logice (booleene) Nu-ți face griji dacă această terminologie nu înseamnă nimic pentru tine George Boole este un matematician și filozof al cărui nume este asociat cu funcții simple precum ȘI logic și SAU Funcțiile logice booleene sunt un fel de funcții „de gândire” cu limbaj propriu Dacă spunem „Veți primi budincă doar dacă ați mâncat deja legumele ȘI vă mai este foame”, atunci folosim o funcție booleană AND Rezultatul unei funcții booleene ȘI este adevărat numai dacă ambele condiții sunt adevărate Nu va fi adevărat dacă doar una dintre condiții este adevărată Așa că dacă mi-e foame, dar nu mi-am mâncat încă legumele, nu-mi voi lua budinca În mod similar, dacă spunem „Poți merge în parc dacă azi este zi liberă SAU ai o vacanță”, atunci folosim o funcție booleană SAU Rezultatul unei funcții booleene SAU este adevărat dacă cel puțin una dintre condiții este adevărată Nu este deloc necesar ca toate condițiile să fie adevărate, ca în cazul funcției AND De aceea, dacă azi nu este zi liberă, dar am vacanță, atunci pot să fac o plimbare în parc Anterior, ne-am gândit la o funcție ca la o mașină care preia o anumită intrare, efectuează o anumită acțiune și produce un singur răspuns вход А вход А вход В вход В O valoare adevărată este adesea reprezentată în computere ca număr , iar o valoare falsă este adesea reprezentată ca număr În tabelul de mai jos, rezultatele funcțiilor logice AND și SAU sunt prezentate folosind această notație concisă pentru toate combinațiile de intrare valorile A și B Valoarea de intrare A Valoarea de intrare B ȘI logic SAU logic unu unu unu unu unu unu unu unu Aici se vede clar că rezultatul funcției AND va fi adevărat numai atunci când atât A cât și B sunt adevărate Funcțiile booleene joacă un rol foarte important în informatică, iar primele dispozitive electronice de calcul au fost de fapt asamblate din circuite electrice minuscule care executau operații logice Chiar și operații aritmetice au fost efectuate folosind aceste circuite, care ele însele au efectuat doar operații booleene simple Imaginați-vă un clasificator liniar simplu care trebuie să folosească un set de date de antrenament pentru a afla dacă datele sunt conduse de o funcție booleană Probleme de acest fel apar în mod natural pentru oamenii de știință care investighează relațiile cauzale sau corelațiile cantităților observate De exemplu, trebuie să se răspundă la următoarea întrebare: „Crește probabilitatea de malarie în zonele în care plouă constant ȘI temperatura depășește de grade?” Sau așa: „Crește probabilitatea de a face malarie dacă vreuna (OR booleană) dintre aceste condiții este adevărată?” Aruncă o privire la diagrama de mai jos, unde valorile de pe cele două intrări ale funcției logice, A și B, reprezintă coordonatele punctelor de pe grafic Vedeți că numai atunci când ambele valori de intrare sunt adevărate, de exemplu fiecare este , rezultatul de ieșire evidențiat în verde este adevărat Valorile false de ieșire sunt marcate cu roșu Diagrama arată, de asemenea, o linie dreaptă care separă zona roșie de zona verde Această linie reprezintă o funcție liniară care poate fi utilizată pentru a antrena un clasificator liniar , așa cum am făcut mai devreme Nu vom efectua calculele corespunzătoare, ca în exemplele anterioare, deoarece acest lucru nu va oferi nimic fundamental nou linii de despărțire ar putea fi propuse care ar funcționa la fel de satisfăcător, dar principala concluzie din acest exemplu este că un clasificator liniar simplu precum y=ax+b poate fi antrenat să funcționeze cu o funcție booleană AND Acum aruncați o privire la o reprezentare grafică similară a funcției booleene SAU De data aceasta, doar punctul ( , ) este roșu, deoarece are valori false pe ambele intrări, A și B În toate celelalte combinații de valori, cel puțin una dintre ele este adevărată și, prin urmare, rezultatul este adevărat pentru ele Frumusețea acestei diagrame este că demonstrează în mod clar capacitatea de a antrena un clasificator liniar pentru a lucra cu o funcție SAU Există o altă funcție booleană XOR care evaluează drept adevărat numai dacă doar una dintre intrările A și B este adevărată, dar nu ambele Astfel, dacă ambele valori de intrare sunt false sau ambele sunt adevărate, atunci rezultatul va fi fals Toate cele de mai sus sunt rezumate în tabelul de mai jos Valoarea de intrare A Valoarea de intrare B XOR unu unu unu unu unu unu Aruncă o privire la diagrama corespunzătoare acestei funcții Aici este problema ta! Nu vedem o modalitate de a separa zonele verzi și roșii cu o singură linie dreaptă De fapt, acesta este cazul: este imposibil să trasezi o singură linie dreaptă în așa fel încât să separe cu succes punctele de date roșii de cele verzi pentru funcția XOR Aceasta înseamnă că un clasificator liniar simplu nu poate învăța să lucreze cu funcția XOR dacă i se oferă date de antrenament conduse de această funcție Tocmai am demonstrat principala limitare a unui clasificator liniar simplu: astfel de clasificatori nu sunt potriviti dacă problema de bază nu permite ca datele să fie separate printr-o singură linie dreaptă Dar ceea ce ne dorim este ca rețelele neuronale să poată fi folosite pentru a rezolva cea mai largă gamă de probleme, chiar și cele care nu permit separarea liniară a datelor Prin urmare, trebuie să găsim o cale de ieșire din această situație Din fericire, există o astfel de soluție: utilizarea în comun a mai multor clasificatoare Este ilustrat în diagrama de mai jos cu două linii de separare Această idee este centrală pentru teoria rețelelor neuronale Până acum ar trebui să vă fie clar că cu ajutorul unui set de linii drepte puteți împărți în modul dorit orice configurație arbitrar complexă a zonelor de clasificat Înainte de a începe să construim rețele neuronale care implică mai mulți clasificatori care lucrează împreună, să ne întoarcem la natură și să ne uităm la funcționarea creierului animal, analogii la care au inspirat dezvoltarea abordărilor rețelelor neuronale rezumat Un clasificator liniar simplu nu va putea separa în mod corespunzător regiunile de date dacă datele nu sunt conduse de un proces liniar simplu Acest lucru a fost demonstrat cu date conduse de o funcție logică XOR Cu toate acestea, această problemă este rezolvată foarte simplu: pentru a distinge între datele care nu pot fi separate printr-o singură linie dreaptă, ar trebui să utilizați un set de clasificatoare liniare Neuronii sunt calculatoare create de natură Mai devreme s-a spus că creierul animal i-a derutat pe oamenii de știință, deoarece chiar și la reprezentanți atât de mici ai vieții sălbatice precum papagalii, acesta demonstrează abilități incomparabil mai mari decât computerele digitale, cu un număr mare de elemente de calcul electronice și volume incredibile de memorie care funcționează la frecvențe dincolo de atingerea unui creier viu din carne și oase Apoi, atenția s-a concentrat asupra diferențelor arhitecturale În calculatoarele tradiționale, datele sunt procesate secvenţial, după reguli bine definite Nu există loc pentru ambiguitate și obscuritate în calculele lor programate la rece Pe de altă parte , a devenit treptat clar că creierul animalelor, în ciuda aparentei lentoare a ritmurilor sale de lucru în comparație cu computerele, procesează semnalele în paralel și că incertitudinea este o caracteristică esențială a activității sale Să luăm în considerare structura unității structurale și funcționale de bază a creierului biologic , neuronul Deși neuronii există sub diferite forme, toți transmit semnale electrice de la un capăt la celălalt al neuronului , de la dendrite prin axoni la terminale Mai mult, aceste semnale sunt transmise de la un neuron la altul Prin acest mecanism puteți percepe lumina, sunetul, atingerea, căldura și așa mai departe Semnalele de la neuronii receptori specializați sunt transportate prin sistemul nervos către creier, care este , de asemenea, format în mare parte din neuroni Ilustrația de mai jos prezintă o diagramă a structurii neuronilor creierului papagalului, prezentată de un neuroștiință spaniol în Arată clar cele mai importante componente ale neuronului - dendrite și terminale De câți neuroni avem nevoie pentru a îndeplini sarcini interesante și mai complexe? În creierul uman, care este cel mai dezvoltat, există aproximativ de miliarde de neuroni Creierul Drosophila ( musca fructelor) conține aproximativ de neuroni, dar poate zbura, mânca, evita pericolul, poate găsi hrană și poate îndeplini multe alte sarcini destul de complexe Acest număr - de mii - este destul de comparabil cu capacitățile computerelor moderne și, prin urmare, are sens să încercăm să imitem munca unui astfel de creier Creierul unui nematod (vierme rotunzi) are doar neuroni - o cantitate neglijabilă în comparație cu resursele computerelor digitale moderne! Dar acest vierme este capabil să rezolve probleme destul de complexe de care computerele tradiționale de dimensiuni mult mai mari nu sunt încă capabile Care este secretul? De ce creierul biologic are abilități atât de remarcabile, în ciuda faptului că este mai lent și constă din relativ mai puține elemente de calcul în comparație cu computerele moderne? Mecanismele complexe ale modului în care funcționează creierul (de exemplu, prezența conștiinței) sunt încă un mister, dar știm suficient despre neuroni pentru a sugera diferite moduri de a efectua calcule, de exemplu moduri diferite de rezolvare a problemelor Luați în considerare cum funcționează un neuron Acesta primește un semnal electric de intrare și generează un alt semnal electric Acest lucru este foarte asemănător cu modul în care funcționează modelele de clasificare sau predictor , care preiau o anumită intrare, efectuează unele calcule și returnează un rezultat Deci putem reprezenta neuronii ca funcții liniare așa cum am făcut-o înainte? Nu, deși ideea în sine nu este una rea Semnalul de ieșire generat de neuron nu este o simplă funcție liniară a semnalului de intrare, adică ieșirea nu poate fi reprezentată ca output= (constant * input) + (posibil altă constantă) Conform rezultatelor observațiilor, neuronii nu reacționează imediat , ci suprimă semnalul de intrare până când acesta crește la o valoare care declanșează generarea semnalului de ieșire Vă puteți gândi la aceasta ca având o valoare de prag care trebuie depășită înainte de a genera o ieșire Comparați comportamentul apei într-o cană: apa nu este poate stropi până când cana este plină Intuitiv, acest lucru este clar - neuronii transmit doar semnale puternice care transportă informații utile, dar nu zgomot slab Ideea de a genera un semnal de ieșire numai atunci când amplitudinea semnalului de intrare atinge o valoare suficientă, depășind un anumit prag, este ilustrată grafic mai jos semnal de ieșire gsnl O funcție care primește o intrare dar generează o ieșire dată de o valoare de prag se numește funcție de activare Din punct de vedere matematic, există multe astfel de funcții care ar putea oferi un efect similar Un exemplu este o funcție pas Ieșire functie de pas intrare prag Este ușor de observat că pentru valorile de intrare slabe, valoarea de ieșire este zero Dar de îndată ce pragul de intrare este depășit, apare un semnal pe curs Un neuron artificial cu acest comportament ar semăna cu un neuron biologic real Acest lucru este foarte bine descris de termenul pe care oamenii de știință îl folosesc: ei spun că neuronul se declanșează atunci când semnalul de intrare atinge o valoare de prag Funcția de pas poate fi îmbunătățită Funcția în formă de S prezentată mai jos se numește sipoid sau funcție sigmoidă Limitele dreptunghiulare ascuțite ale funcției de pas sunt netezite în ea, ceea ce o face mai naturală și mai realistă Natura nu-i plac colțurile ascuțite! Sigmoidul netezit în formă de S este ceea ce vom folosi pentru a crea propria noastră rețea neuronală Cercetătorii AI folosesc și alte funcții similare, dar sigmoidul este simplu și foarte popular, așa că ar fi o alegere grozavă pentru noi Sigmoidul, numit uneori și funcție logistică , este descris prin următoarea formulă: Această expresie nu este atât de intimidantă pe cât ar părea la început Litera e la matematică este folosită pentru a desemna o constantă egală cu , Acesta este un număr foarte interesant care apare în multe domenii ale matematicii și fizicii, iar motivul pentru care am folosit puncte suspensive ( ) în ea este pentru că zecimală notația poate fi continuată la nesfârșit Există un nume de lux pentru astfel de numere - numere transcendentale Toate acestea sunt desigur interesante, dar pentru scopurile noastre este suficient să presupunem că acest număr este pur și simplu egal cu , Valoarea de intrare este luată cu semn negativ, iar e este ridicată la puterea lui -x Rezultatul se adaugă la , ceea ce ne dă +e x În cele din urmă, inversăm ultima sumă, adică împărțiți la +e x Aceasta este ceea ce face funcția de mai sus cu intrarea x pentru a ne oferi ieșirea y Deci nu este nimic în neregulă cu asta Doar de dragul interesului, trebuie remarcat că atunci când valoarea lui x este zero, expresia ex ia valoarea , deoarece ridicarea oricărui număr la puterea zero dă întotdeauna Prin urmare, y devine egal cu / ( + ) sau doar / , adică jumătate Prin urmare, baza sig moid intersectează axa y la y= / Există un alt motiv foarte bun pentru a alege sigmoidul din setul tuturor funcțiilor în formă de S care ar putea fi utilizate pentru a determina valoarea de ieșire a unui neuron Faptul este că este mult mai ușor să efectuați calcule cu un sigmoid decât cu orice altă funcție de curbă în S și veți vedea curând în practică că acesta este într-adevăr cazul Să ne întoarcem la neuroni și să vedem cum putem modela un neuron artificial Primul lucru de înțeles este că neuronii biologici reali au intrări multiple, nu doar una Am mai văzut asta cu o mașină logică booleană cu două intrări, așa că ideea de a mai mult de o intrare nu va fi nouă sau neobișnuită pentru tine Dar ce facem cu toate aceste intrări? Pur și simplu le vom combina prin însumarea valorilor corespunzătoare, iar suma rezultată va servi ca valoare de intrare pentru sigmoidul care conduce valoarea de ieșire O astfel de schemă reflectă principiul funcționării unei rețele neuronale Diagrama de mai jos ilustrează ideea de a combina valorile de intrare și de a compara suma rezultată cu o valoare de prag Dacă semnalul combinat nu este suficient de puternic, atunci sigma da suprimă semnalul de ieșire Dacă suma lui x este suficient de mare, atunci funcția excită neuronul Este interesant de observat că, chiar dacă un singur semnal este suficient de puternic, în timp ce toate celelalte sunt mici, acesta poate fi suficient pentru a excita neuronul Mai mult, un neuron se poate declanșa și atunci când fiecare dintre semnale, luate separat, are o valoare insuficientă, dar, luate împreună, asigură depășirea pragului Acest lucru pare deja un prototip al calculelor mai complexe și, într-un fel, nedeterminate de care sunt capabili astfel de neuroni Semnalele electrice sunt preluate de dendrite, unde sunt combinate pentru a forma un semnal mai puternic Dacă acest semnal depășește pragul, neuronul se declanșează, iar semnalul este transmis prin axon către terminale, de unde intră în dendritele următorului neuron Neuronii conectați în acest fel sunt reprezentați schematic în ilustrația de mai jos Ceea ce este izbitor la această diagramă este că fiecare neuron primește input de la mai mulți neuroni din fața lui și, la rândul său, transmite și un semnal către mulți alții atunci când este excitat O modalitate de a reproduce acest comportament al neuronilor observați în natură într-un model artificial este de a crea structuri neuronale cu mai multe straturi în care fiecare neuron este conectat la fiecare dintre neuronii din straturile precedente și următoare Această idee este ilustrată în ilustrația următoare входы входы neuronii de conexiune Această ilustrație arată trei straturi, fiecare conținând trei neuroni artificiali sau noduri Este ușor de observat că aici fiecare nod este conectat la fiecare dintre nodurile straturilor precedente și următoare Minunat! Dar în ce parte a acestei structuri înghețate se află capacitatea de a învăța? Ce ar trebui să ajustăm ca răspuns la datele cazului de instruire? Există aici un parametru care ar putea fi îmbunătățit în același mod ca și mai devreme cu panta clasificatorului liniar? Cea mai evidentă cantitate pe care am putea-o ajusta este puterea conexiunii dintre noduri În cadrul nodului, am putea ajusta suma valorilor de intrare sau forma sigmoidului , dar acest lucru este deja puțin mai complicat decât ajustarea anterioară Dacă o abordare mai simplă funcționează, atunci hai să rămânem cu ea! Următoarea diagramă arată din nou interconectarea asociată o pondere specifică Un factor de ponderare scăzut atenuează semnalul, în timp ce un factor de ponderare ridicat îl îmbunătățește входы входы Ar trebui spuse câteva cuvinte despre micii indici indicați în dreptul coeficienților De exemplu, simbolul W denotă un factor de ponderare asociat cu un semnal care este transmis de la nodul al unui strat dat la nodul al stratului următor Prin urmare, este un factor de ponderare care atenuează sau amplifică semnalul transmis de la nodul la nodul al următorului strat Pentru a ilustra această idee, ambele conexiuni dintre primul și al doilea strat sunt evidențiate color în diagrama următoare входы входы S-ar putea să întrebați în mod legitim acest design și să vă întrebați de ce fiecare nod dintr-un strat trebuie să fie conectat la fiecare nod din straturile precedente și următoare Această cerință nu este obligatorie, iar straturile pot fi conectate între ele în orice mod imaginabil Nu luăm în considerare alte metode posibile aici, din motivul că, datorită omogenității circuitului descris de interconectare completă a neuronilor, este de fapt mult mai ușor să îl codificăm sub formă de instrucțiuni computerizate decât orice alt circuit și, de asemenea, pentru că prezența mai multor conexiuni decât minimul necesar dintre ele, care pot fi necesare pentru a rezolva o anumită problemă, nu va aduce niciun rău Dacă într-adevăr nu sunt necesare conexiuni suplimentare, atunci procesul de învățare le va slăbi influența Ce se înțelege prin asta? Aceasta înseamnă că, de îndată ce rețeaua învață să-și îmbunătățească valorile de ieșire prin rafinarea greutăților conexiunilor din cadrul rețelei, unele dintre greutăți se vor reseta la zero sau se vor apropia de zero La rândul său, aceasta înseamnă că astfel de legături nu vor afecta rețeaua, deoarece semnalele lor nu sunt vor fi transmise Înmulțirea semnalului cu greutatea zero are ca rezultat zero, ceea ce înseamnă deconectarea efectivă rezumat Creierul biologic demonstrează capacitatea de a îndeplini sarcini complexe, cum ar fi controlul zborului, căutarea hranei, învățarea unei limbi sau evitarea întâlnirilor cu prădătorii , în ciuda faptului că are mai puțină memorie și o procesare mai lentă a informațiilor în comparație cu computerele moderne În plus, creierul biologic este incredibil de rezistent la daune și imperfecțiuni ale semnalelor procesate în comparație cu sistemele computerizate tradiționale Creierul biologic, care este format din neuroni interconectați, este o sursă de inspirație pentru dezvoltatorii de sisteme de inteligență artificială Propagarea semnalelor printr-o rețea neuronală Imaginea de mai sus cu trei straturi de neuroni, fiecare conectat la fiecare dintre neuronii din stratul anterior și următor, pare destul de atractivă Cu toate acestea, intuiția ne spune că nu este atât de ușor să calculăm propagarea semnalelor de intrare prin toate straturile până când acestea se transformă în semnale de ieșire și va trebui să muncim din greu, să spunem! Sunt de acord că aceasta nu este o treabă ușoară, dar este, de asemenea, important să arătăm cum funcționează acest mecanism, astfel încât să avem întotdeauna o idee clară despre ceea ce se întâmplă cu adevărat în rețeaua neuronală, chiar dacă mai târziu vom folosiți un computer care face toată munca pentru noi Prin urmare, vom încerca să facem calculele necesare pe exemplul unei rețele neuronale mai mici, constând din doar două straturi, fiecare dintre acestea incluzând neuroni, așa cum se arată mai jos Să presupunem că semnalele de intrare corespund valorilor , și , выходы выходы Ca și înainte, fiecare nod transformă suma a două intrări într-o singură ieșire folosind o funcție de activare Suntem și noi vom folosi sigmoidul y = pe care l-ați întâlnit deja , unde x este suma semnalelor care intră în neuron, y este semnalul de ieșire al acestui neuron , , , , , , , , Dar factorii de ponderare? Aceasta este o întrebare foarte bună: cu ce valoare ar trebui să începem? Să începem cu greutăți aleatorii: wx > = ^, = W , = W , = Alegerea unor valori de pornire aleatoare nu este o idee atât de rea și exact asta am făcut când am ales mai devreme o pantă de pornire aleatorie pentru un clasificator liniar simplu Valoarea aleatorie sa îmbunătățit cu fiecare exemplu de antrenament succesiv folosit pentru a antrena clasificatorul Același lucru ar trebui să fie valabil și pentru coeficienții de greutate a conexiunilor din rețelele neuronale În acest caz, când rețeaua este mică, avem doar patru ponderi, deoarece acesta este numărul tuturor conexiunilor posibile între noduri, având în vedere că fiecare strat conține două noduri Mai jos este o diagramă în care toate linkurile sunt etichetate corespunzător Să începem să calculăm! Primul strat de noduri este stratul de intrare, iar singurul său scop este reprezentarea semnalelor de intrare Astfel, la nodurile de intrare, funcția de activare nu se aplică semnalelor de intrare Nu facem niciun argument rațional în acest sens și pur și simplu considerăm de la sine înțeles că primul strat de rețele neuronale este doar un strat de intrare care reprezintă semnalele de intrare Asta e tot Cu primul strat, totul este simplu - fără calcule În continuare, trebuie să lucrăm la al doilea strat, care va necesita câteva calcule Trebuie să determinăm semnalul de intrare pentru fiecare nod din acest strat Vă amintiți sigmoidul y= ? În această funcție , x este semnalul de intrare combinat +e nodul Această combinație este formată din ieșirile brute ale nodurilor conectate ale stratului anterior, netezite de greutățile legăturilor Diagrama de mai jos este similară cu cele pe care le-ați văzut până acum, dar acum arată netezirea semnalelor de intrare prin aplicarea greutăților legăturilor să ne concentrăm pe nodul al stratului Ambele noduri ale primului strat de intrare sunt conectate la acesta Valorile inițiale la aceste noduri de intrare sunt , și , Legăturilor primului nod li se atribuie o pondere de , , legăturilor celui de-al doilea nod li se atribuie o pondere de , Prin urmare, semnalul de intrare netezit este calculat folosind următoarea expresie: x = (ieșirea primului nod * greutatea legăturii) + + (ieșirea celui de-al doilea nod * greutatea legăturii) x = ( , * , ) + ( , * , ) x = , + , x = , Fără a netezi semnalele, am obține pur și simplu suma lor de , + , , dar nu dorim acest lucru Procesul de antrenare a rețelei neuronale va fi asociat cu coeficienții de greutate, deoarece aceștia sunt rafinați iterativ pentru a obține rezultate din ce în ce mai bune Deci avem deja x= , pentru intrarea netezită combinată a primului nod din al doilea strat și acum avem toate datele de care avem nevoie pentru a calcula ieșirea pentru acel nod folosind funcția de activare y = - + e Încercați să vă dați seama singur folosind un calculator Iată răspunsul corect: y = / ( + , ) = / , Astfel , y= , Buna treaba! Am calculat ieșirea reală pentru unul dintre cele două noduri de ieșire din rețea Să repetăm aceleași calcule pentru nodul rămas, nodul al celui de-al doilea strat, adică, calculați din nou semnalul de intrare netezit folosind următoarea expresie: x = (ieșirea primului nod * greutatea legăturii) + + (ieșirea celui de-al doilea nod * greutatea legăturii) x = ( , * , ) + ( , * , ) x = , + , x = , b Având în vedere valoarea lui x, putem calcula ieșirea nodului folosind funcția de activare: y= /( + , )= / , Astfel, y= , Semnalele de ieșire ale rețelei calculate de noi sunt prezentate în diagrama de mai jos выходы > ОЛ Т выходы > ОЛ Т După cum puteți vedea, pentru a obține doar două ieșiri pentru o rețea neuronală foarte simplă, a trebuit să muncim din greu Personal, nu m-aș bucura să fiu nevoit să fac aceleași calcule manual pe rețele mai mari! Din fericire , computerele sunt ideale pentru a face acest tip de calcul și pot face treaba rapid, scutindu-vă de bătăi de cap Cu toate acestea, chiar și având în vedere acest lucru, nu aș fi dornic să scriu instrucțiunile de programare adecvate pentru o rețea cu mai mult de două straturi, fiecare dintre acestea putând include , sau chiar de noduri Inutil să spunem, cât de plictisitoare este această sarcină, în plus, este plină de un număr mare de erori și greșeli de scriere, care, în general, pot face aproape imposibilă efectuarea calculelor Dar am fost norocoși Matematicienii au dezvoltat un mod extrem de compact de a scrie tipurile de operații care trebuie efectuate pentru a calcula ieșirea unei rețele neuronale, chiar dacă aceasta conține multe straturi și noduri Această compactitate este benefică nu numai pentru persoanele care scriu sau citesc formulele corespunzătoare, ci și pentru computere, deoarece instrucțiunile programului sunt mai scurte și rulează mult mai rapid Această abordare compactă presupune utilizarea matricelor , despre care vom discuta acum Ce lucru grozav este - multiplicarea matricei! Matricele au o reputație teribilă Ele trezesc amintiri ale acelor ore lungi și plictisitoare pe care a trebuit să le petreci în anii studenților într-o activitate aparent complet lipsită de scop și inutilă - multiplicarea matricei Înainte de asta, am efectuat manual calcule pentru o rețea cu două straturi care conține doar noduri în fiecare strat Cu toate acestea, chiar și în acest caz, cantitatea de muncă s-a dovedit a fi destul de mare și ce se poate spune atunci, de exemplu, despre o rețea formată din cinci straturi a câte de noduri fiecare? În sine, notarea tuturor expresiilor necesare ar fi o sarcină dificilă Combinarea semnalelor, înmulțirea cu factori de ponderare corespunzători, aplicarea unui sigmoid la fiecare nod Wow! Deci, cum ne pot ajuta matricele? Ne vor fi de folos în două privințe În primul rând, oferă o înregistrare concisă a operațiunilor, oferindu-le o formă extrem de compactă Acesta este un mare plus pentru noi, deoarece o astfel de muncă este plictisitoare, necesită concentrare și este plină de erori În al doilea rând, majoritatea limbajelor de programare pentru computere sunt proiectate să funcționeze cu matrici și, deoarece multe dintre operații sunt repetate, computerele recunosc acest lucru și le efectuează foarte repede Rezumând, putem spune că matricele fac posibilă formularea sarcinilor într-o formă mai simplă și mai compactă și asigură executarea lor mai rapidă și mai eficientă Acum că știți motivele pentru care vom folosi matrice, în ciuda a ceea ce ar fi putut fi o experiență dulce-amăruie cu ele ca student, să demitificăm matricele, începând să lucrăm cu ele O matrice este doar un tabel, o grilă dreptunghiulară de numere Asta e tot Tot ce este legat de matrice nu este mai dificil decât asta Dacă ați folosit deja foi de calcul, atunci nu ar trebui să aveți dificultăți atunci când lucrați cu numere situate în celulele grilei Următorul este un exemplu de foaie de lucru Excel cu un tabel numeric Aceasta este o matrice - un tabel sau o grilă formată din numere, la fel ca următorul exemplu de matrice x La desemnarea matricelor, se obișnuiește să se indice mai întâi numărul de rânduri și apoi numărul de coloane Prin urmare, dimensiunea acestei matrice nu este x , ci x În plus, uneori matricele sunt incluse între paranteze pătrate, alteori între paranteze rotunde, așa cum am făcut noi De fapt, matricele nu trebuie să fie formate din numere Ele pot include cantități pe care le-am dat nume, dar nu valori reale Prin urmare, următoarea ilustrație arată și o matrice cu elemente sub formă de variabile, fiecare dintre ele având o anumită semnificație și poate avea o valoare, doar că nu am indicat încă care sunt aceste valori Cum sunt utile matricele, veți înțelege când ne uităm la modul în care sunt înmulțite Poate că vă amintiți acest lucru de la cursul de matematică superioară și, dacă nu, atunci împrospătați-vă memoria Iată un exemplu de înmulțire a unei matrice simple cu alta După cum puteți vedea, această operație nu se reduce la o simplă înmulțire a elementelor corespunzătoare Elementul din stânga sus nu este * , nici elementul din dreapta jos nu este * În schimb, matricele sunt înmulțite după reguli diferite Poate că tu însuți vei ghici care dintre ele, dacă te uiți cu atenție la exemplu Dacă nu, atunci aruncați o privire la ilustrația de mai jos, care arată cum se obține răspunsul pentru elementul din stânga sus ( * ) + ( * ) ( * ) + ( * ) ( * ) + ( * ) ( * ) + ( * ) Puteți vedea că elementul din stânga sus este calculat folosind rândul de sus al primei matrice și coloana din stânga a celei de-a doua Trecând mental prin ambele secvențe de elemente, înmulțiți-le în perechi și adunați rezultatele Astfel , pentru a calcula elementul din stânga sus al matricei rezultate, începem să ne mișcăm de-a lungul rândului de sus al primei matrice, unde găsim numărul , și începem să ne mișcăm în jos pe coloana din stânga a celei de-a doua matrice, găsim numărul Le înmulțim și ne amintim rezultatul, care este Continuăm să ne mișcăm în jos pe rând și în jos pe coloană și găsim elementele și Ne amintim și rezultatul înmulțirii lor, care este În acest caz, am ajuns deja la sfârșitul rândului și al coloanei, așa că însumăm numerele pe care le-am memorat anterior și obținem ca rezultat numărul Acesta este elementul din stânga sus al matricei rezultate Descrierea s-a dovedit a fi lungă, dar execuția acțiunilor în sine nu necesită mult timp Continuați pe cont propriu Ilustrația de mai jos arată cum este calculat elementul din dreapta jos al matricei rezultate Puteți vedea din nou cum, folosind rândul și coloana care se potrivește cu elementul pe care îl căutăm (în acest caz, al doilea rând și a doua coloană), obținem două produse, ( * ) și ( * ), care se adună pentru a da + = Continuând în aceeași ordine de idei, aflăm că elementul din stânga jos este ( * ) + ( * ) = + = , iar elementul din dreapta sus este ( * ) + ( * ) = + = Următoarea ilustrație demonstrează utilizarea variabilelor în loc de numere: (c*f) + (d*k) + (c*f) + (d*k) + Acesta este doar un alt mod de a descrie abordarea pe care o folosim pentru a multiplica matrice Folosind litere care pot fi înlocuite cu orice număr, oferim o descriere generală a acestei abordări Această descriere este într-adevăr mai generală decât cea anterioară, deoarece se aplică matricelor de diferite dimensiuni Vorbind despre aplicabilitatea abordării descrise la matrice de orice dimensiune, ar trebui făcută o avertizare importantă: matricele multiplicate trebuie să fie compatibile Veți înțelege care este problema aici, amintindu-vă cum am selectat elementele în perechi din rândurile primei matrice și coloanele celei de-a doua: această metodă nu poate funcționa dacă numărul de elemente din rând nu se potrivește cu numărul de elemente din coloana Deci nu puteți înmulți o matrice x cu o matrice x Încercați-l și veți vedea singur de ce este imposibil Pentru ca matricele să fie înmulțite, numărul de coloane din prima matrice trebuie să se potrivească cu numărul de rânduri din a doua În diferite manuale, acest tip de multiplicare a matricei poate fi găsit sub diferite denumiri: produsul punctual, produsul punctual sau produsul interior În matematică, sunt posibile alte tipuri de înmulțire a matricelor, cum ar fi produsul încrucișat, dar vom lucra cu produsul punctual al matricelor Dar de ce ar trebui să ne adâncim în sălbăticia acestei înmulțiri de matrice groaznice și algebrei dezgustătoare? Există un motiv bun pentru asta Pregătiți-vă! Să vedem ce se întâmplă dacă înlocuim literele cu cuvinte care sunt mai relevante pentru rețeaua noastră neuronală În ilustrația de mai jos, a doua matrice este x , dar algebra matricei rămâne aceeași Nu există altă modalitate de a numi asta magie! Prima matrice conține coeficienții de greutate pentru conexiunile dintre nodurile a două straturi, a doua conține semnalele primului strat de intrare Rezultatul înmulțirii acestor două matrice este semnalul netezit combinat care ajunge la nodurile celui de-al doilea strat Aruncă o privire mai atentă și vei înțelege Primul nod primește suma a două semnale - semnalul de intrare înmulțit cu coeficientul de greutate w x p și semnalul de intrare înmulțit cu coeficientul de greutate w p Acestea sunt valorile lui x înainte de a le aplica funcția de activare Să prezentăm toate acestea într-o formă mai vizuală cu ajutorul unei ilustrații inputJL inputJL x = ( * ) + ( mputjz * z ) Abordarea descrisă este extrem de utilă De ce? Deoarece în cadrul său, toate calculele care sunt necesare pentru a calcula semnalele de intrare care vin la fiecare dintre nodurile celui de-al doilea strat pot fi exprimate folosind multiplicarea matriceală, care oferă o formă extrem de compactă de scriere a operațiilor corespunzătoare: X = WI Aici , W este matricea ponderii, I este matricea de intrare și X este matricea rezultată a semnalelor netezite combinate care intră în stratul Simbolurile matriceale sunt adesea scrise cu caractere aldine pentru a sublinia faptul că aceste simboluri reprezintă matrici și nu doar numere simple Acum nu trebuie să ne facem griji cu privire la câte noduri sunt în fiecare strat O creștere a numărului de straturi duce doar la o creștere a dimensiunii matricelor Dar numărul de caractere din înregistrare nu crește Rămâne compactă ca și până acum și pur și simplu scriem produsul matricelor sub forma W •!, indiferent de numărul de elemente din fiecare dintre ele, fie el sau ! Dacă limbajul de programare utilizat recunoaște notația matriceală, atunci computerul va face toate calculele obositoare implicate în evaluarea expresiei X = W • I fără a-i oferi instrucțiuni separate pentru fiecare nod din fiecare strat Este pur și simplu fantastic! După ce ne-am luat puțin timp pentru a înțelege esența înmulțirii matricelor, avem la dispoziție un instrument puternic pentru implementarea rețelelor neuronale fără niciun efort special din partea noastră Dar funcția de activare? Aici totul este simplu și nu necesită utilizarea algebrei matriceale Tot ce trebuie să facem este să aplicăm conectează sigmoidul y = - la fiecare element individual al matricei X +e Acest lucru sună prea simplu, dar este, pentru că nu trebuie să combinăm semnale de la diferite noduri: acest lucru este deja făcut și toate informațiile necesare sunt deja conținute în X După cum am văzut deja, rolul funcției de activare este aplicarea pragurilor și suprimarea semnalelor inutile pentru a imita comportamentul neuronilor biologici Prin urmare, semnalul de ieșire rezultat al celui de-al doilea strat poate fi scris după cum urmează: O = sigmoid(X) Aici, simbolul O îngroșat indică o matrice care conține toate semnalele de ieșire ale ultimului strat al rețelei neuronale Expresia X = W • I este folosită pentru a calcula semnalele care trec de la un strat la următorul strat De exemplu, dacă avem trei straturi, pur și simplu efectuăm din nou operația de multiplicare a matricei , folosind ieșirile celui de-al doilea strat ca intrări pentru al treilea, dar, bineînțeles, precombinându-le și netezindu-le cu greutăți suplimentare În această etapă, am terminat cu teoria și acum trebuie să vedem cum funcționează trecând la un exemplu concret, care de data aceasta va reprezenta o rețea neuronală ceva mai mare , cu trei straturi de trei noduri rezumat Multe calcule legate de propagarea semnalelor printr-o rețea neuronală pot fi efectuate folosind operația de multiplicare a matricei Utilizarea înmulțirii matricei oferă o notație compactă a expresiilor , a cărei dimensiune nu depinde de dimensiunea rețelei neuronale Important este că operațiile de algebră matriceală sunt furnizate nativ într-un număr de limbaje de programare, astfel încât să poată fi efectuate rapid și eficient Un exemplu de utilizare a înmulțirii matricei într-o rețea cu trei straturi Nu am folosit încă matrice pentru a efectua calcule legate de calculul semnalelor la ieșirea unei rețele neuronale De asemenea, nu am discutat încă exemple cu mai mult de două straturi, ceea ce ar fi mult mai interesant, deoarece trebuie să ne uităm la modul în care ieșirile stratului intermediar sunt procesate ca intrări către ultimul, al treilea strat Următoarea diagramă prezintă un exemplu de rețea neuronală care include trei straturi de trei noduri Pentru a evita aglomerarea diagramei cu etichete de prisos, unele greutăți nu sunt afișate pe diagramă Vom începe prin a introduce terminologia comună După cum știm, primul strat este intrarea, iar al doilea este ieșirea Stratul intermediar se numește stratul ascuns Sună misterios și misterios, dar, din păcate, nu este nimic misterios și misterios aici Acest nume a fost atribuit stratului intermediar datorită faptului că semnalele sale de ieșire nu apar neapărat ca atare, de unde și termenul „ascuns” Să începem să lucrăm la exemplul prezentat în această diagramă Semnalele de intrare ale rețelei neuronale sunt următoarele: , ; , și , Prin urmare, matricea de intrare I are următoarea formă A fost simplu, adică am terminat cu primul strat, deoarece singura lui sarcină este să reprezinte pur și simplu semnalul de intrare Următorul în linie este stratul intermediar În acest caz, va trebui să calculăm semnalele combinate (și netezite) pentru fiecare nod al acestui strat Amintiți-vă că fiecare nod din stratul ascuns intermediar este conectat la fiecare dintre nodurile din stratul de intrare, deci primește o parte din fiecare intrare Totuși, acum vom acționa mai eficient decât înainte, deoarece vom încerca să aplicăm metoda matricei După cum sa arătat deja, intrările compozite netezite pentru acest strat sunt date de X = W -I, unde I este matricea intrărilor și W este matricea greutăților Avem matricea I, dar ce este W? Unele dintre greutăți (alese aleatoriu) sunt prezentate în diagrama pentru acest exemplu, dar nu toate Mai jos sunt toți factorii de ponderare (din nou, fiecare dintre ei a fost ales ca număr aleatoriu) Nu au existat considerații speciale în spatele alegerii lor După cum puteți vedea, coeficientul de greutate pentru conexiunea dintre primul nod de intrare și primul nod al stratului ascuns intermediar este != , , la fel ca în diagrama de mai sus În mod similar, factorul de ponderare pentru conexiunea dintre al doilea nod de intrare și al doilea nod al stratului ascuns w = , Diagrama nu arată factorul de ponderare pentru conexiunea dintre al treilea nod de intrare și primul nod al stratului ascuns și x = , Stai puțin, de ce i-am dat matricei W indexul „input hidden”? Da, deoarece matricea ȘI intrarea C | conține coeficienți de greutate pentru conexiunile dintre straturile de intrare și cele ascunse Coeficienții pentru conexiunile dintre straturile ascunse și de ieșire vor fi conținute într-o altă matrice, pe care o vom desemna ȘI ieșire ascunsă Această a doua matrice ȘI ieșire ascunsă , ale cărei elemente, ca și elementele matricei anterioare, sunt numere aleatoare, este prezentată mai jos De exemplu, puteți vedea că factorul de ponderare pentru conexiunea dintre al treilea nod ascuns și al treilea nod de ieșire w s = , Excelent, au fost obținute matricele necesare Să ne continuăm munca și să determinăm semnalul netezit combinat pentru stratul ascuns În plus, trebuie să îi dăm un nume descriptiv, completat cu un index care indică faptul că aceasta este intrarea în stratul ascuns, nu ultimul strat Să numim matricea corespunzătoare X ascunsă : X = W - I ascuns input hidden Nu vom efectua manual toți pașii asociați cu înmulțirea matricei Vom încredința computerului această muncă laborioasă, pentru că în acest scop folosim matrice În acest caz, răspunsul final arată astfel Am primit acest răspuns folosind un computer și veți învăța cum să o faceți folosind limbajul de programare Python, despre care vom vorbi în continuare Nu vom face acest lucru acum, pentru a nu fi distras de o discuție despre software deocamdată Deci avem intrările netezite combinate ale stratului intermediar ascuns ale căror valori sunt , ; , și , S- au folosit matrici pentru a efectua toate calculele necesare Aceasta este o realizare de care ne putem mândri! Să afișăm semnalele de intrare pentru al doilea strat ascuns pe diagramă входы входы Până acum, e bine, dar mai avem ceva de făcut După cum vă amintiți, pentru ca răspunsul stratului la semnalul de intrare să imite cât mai bine același proces real, trebuie să aplicăm o funcție de activare nodurilor Deci hai sa o facem: ascuns = sigmoid(X ascuns Aplicând un sigmoid fiecărui element al matricei X ascuns , obținem o matrice de semnale de ieșire ale stratului intermediar ascuns Pentru a fi sigur, să verificăm dacă primul element este calculat corect Sigmoidul nostru are forma y \u d - Presupunând x= , , + e obținem e , v = , Aceasta înseamnă că y = / ( + , ) = , Este ușor de observat că toate valorile posibile ale acestei funcții sunt între și Întoarceți-vă puțin și priviți graficul funcției logistice dacă doriți să vă asigurați că acesta este într-adevăr cazul Wow! Să facem o pauză și să rezumam ceea ce am făcut până acum Am calculat trecerea semnalului prin stratul intermediar, i e a determinat valorile semnalelor la ieșire Pentru a fi complet clare, aceste valori au fost obținute prin aplicarea unei funcții de activare la semnalele de intrare combinate ale stratului intermediar Să actualizăm diagrama cu aceste noi informații Dacă aceasta ar fi o rețea neuronală cu două straturi, atunci ne-am opri acum, deoarece am primit semnalele de ieșire ale celui de-al doilea strat Totuși, vom continua pentru că există și un al treilea strat Cum se calculează calea semnalului pentru al treilea strat? La fel ca și pentru a doua, deoarece această sarcină nu este de fapt diferită de cea anterioară Cunoaștem mărimea semnalelor de intrare primite de al treilea strat, la fel cum știam anterior magnitudinea semnalelor de intrare primite de al doilea strat Avem, de asemenea, ponderi pentru legăturile dintre noduri care atenuează semnalele În cele din urmă, pentru ca răspunsul rețelei să imite procesul natural cât mai aproape posibil, putem aplica în continuare funcția de activare Prin urmare, ar trebui să vă amintiți următoarele: indiferent de numărul de straturi dintr-o rețea neuronală, procedura de calcul pentru fiecare dintre ele este aceeași - combinarea semnalelor de intrare , netezirea semnalelor pentru fiecare conexiune între noduri folosind greutăți și obținerea unei ieșiri semnal folosind o funcție de activare Nu ne interesează câte straturi formează rețeaua neuronală - , sau , deoarece aceeași abordare se aplică oricăruia dintre ele Deci, să continuăm calculele și să calculăm semnalul de intrare combinat netezit X = W • I pentru al treilea strat Semnalele de intrare pentru al treilea strat sunt deja calculate de noi semnalele de ieșire ale celui de-al doilea strat ascunse În acest sens, trebuie să folosim coeficienții de ponderare pentru legăturile dintre nodurile celui de-al doilea și al treilea strat ȘI ieșirea ascunsă , și nu cele pe care le-am folosit deja pentru primul și al doilea strat Prin urmare avem: X \ u d W , O output hidden output ascuns Prin urmare, procedând ca mai înainte, obținem următoarea expresie pentru semnalele de intrare combinate netezite ale ultimului strat de ieșire: Diagrama actualizată reflectă progresul nostru în calcularea conversiei semnalelor inițiale care sosesc la nodurile primului strat în semnale combinate netezite care sosesc la nodurile ultimului strat pe măsură ce se propagă prin rețeaua neuronală Tot ce ne rămâne este să aplicăm sigmoidul, iar acest lucru nu este greu de făcut Există! Am primit semnale la ieșirea rețelei neuronale Din nou, vom afișa situația actuală pe graficul actualizat &, && выходы &, && выходы , , Astfel, în exemplul nostru de rețea neuronală cu trei straturi , semnalele de ieșire au următoarele valori: , ; s , și , Așadar, am reușit să descriem cu succes propagarea semnalelor printr-o rețea neuronală, adică determinați mărimea semnalelor de ieșire pentru valori date ale semnalelor de intrare Ce urmeaza? Următorul nostru pas este să comparăm rezultatul rețelei neuronale cu datele din exemplul de antrenament pentru a determina eroarea Trebuie să știm amploarea acestei erori, astfel încât să putem îmbunătăți rezultatul prin modificarea parametrilor rețelei Poate că această parte a lucrării este cea mai dificil de înțeles, așa că ne vom deplasa încet, familiarizându-ne treptat cu ideile principale în procesul de lucru Reglarea greutății în procesul de antrenament al rețelei neuronale Anterior, am îmbunătățit comportamentul unui clasificator liniar simplu prin ajustarea parametrului de pantă al funcției liniare a nodului Am făcut acest lucru pe baza valorii actuale a erorii, adică diferența dintre răspunsul generat de nod și valoarea adevărată cunoscută de noi Având în vedere simplitatea relației dintre valorile de eroare și corecție, acest lucru nu a fost dificil Cum actualizăm ponderile legăturilor dacă rezultatul și eroarea acesteia sunt generate de contribuții de la mai mult de un nod? Diagrama de mai jos ilustrează această sarcină Când nodul de ieșire a primit un semnal de la un singur nod, totul a fost mult mai simplu Dar cum se utilizează eroarea semnalului de ieșire când există două noduri de intrare? Nu pare rezonabil să folosiți întreaga valoare a erorii pentru a actualiza doar un factor de pondere, deoarece acesta ignoră complet cealaltă relație și ponderea acesteia Dar, la urma urmei, amploarea erorii este determinată de contribuțiile tuturor obligațiunilor, și nu doar de una Adevărat, există o șansă mică ca o singură legătură să fie responsabilă pentru eroare, dar această probabilitate este neglijabilă Dacă schimbăm o greutate care are deja valoarea „ corectă” și, prin urmare, o înrăutățim, ar trebui să se îmbunătățească în următoarele câteva iterații, astfel încât totul să nu fie pierdut O modalitate posibilă este de a distribui eroarea în mod egal între toate nodurile contributive, așa cum se arată în diagrama următoare Esența unei alte idei este și de a distribui eroarea între noduri, dar această distribuție nu trebuie să fie uniformă În schimb, o mare parte a erorii este atribuită contribuțiilor acelor link-uri care au mai multă pondere De ce? Pentru că au un impact mai mare asupra mărimii erorii Următoarea diagramă ilustrează această idee În acest caz, semnalul care ajunge la nodul de ieșire este format din două noduri Greutățile legăturilor sunt , și , Distribuind eroarea între cele două noduri proporțional cu greutățile lor, veți vedea că / din valoarea erorii ar trebui să fie folosite pentru a actualiza valoarea primei ponderi mai mari, în timp ce / ar trebui folosit pentru a actualiza valoarea lui a doua, greutate mai mică Putem extinde această idee la cazuri cu mult mai multe noduri Dacă un nod de ieșire ar fi conectat la de noduri de intrare, am distribui eroarea de ieșire între toate cele de legături proporțional cu contribuțiile lor, a căror dimensiune este determinată de ponderile legăturilor corespunzătoare După cum puteți vedea, folosim factori de ponderare în două scopuri În primul rând, ele sunt luate în considerare la calcularea propagării semnalelor prin rețeaua neuronală de la stratul de intrare la cel de ieșire Le-am folosit pe scară largă în trecut în această calitate În al doilea rând, folosim ponderi pentru a propaga eroarea înapoi de la nivelul de ieșire în jos în rețea Cred că nu veți fi surprinși să știți că această tehnică se numește backpropagation (feedback) în procesul de formare a unei rețele neuronale Dacă stratul de ieșire ar avea două noduri, am repeta aceiași pași pentru al doilea nod Al doilea nod de ieșire va avea propria eroare distribuită în mod similar între numărul corespunzător de noduri de intrare Acum să ne continuăm considerația Propagarea înapoi a erorilor de la mai multe noduri de ieșire Următoarea diagramă prezintă o rețea simplă cu două noduri de intrare, dar de data aceasta cu două noduri de ieșire Pe ambele noduri se poate forma o eroare - de fapt, această situație este foarte asemănătoare cu cea care apare atunci când rețeaua nu a fost încă antrenată Puteți vedea că pentru a corecta greutățile legăturilor interne sunt necesare informații despre erorile din ambele noduri Putem folosi abordarea anterioară și putem distribui eroarea nodului de ieșire între nodurile sale asociate proporțional cu greutățile legăturilor corespunzătoare De fapt, faptul că acum există mai multe noduri de ieșire nu schimbă nimic Pur și simplu repetăm pentru al doilea nod aceiași pași pe care i-am făcut deja pentru primul De ce este totul atât de simplu? Această simplitate se explică prin faptul că legăturile unui nod de ieșire nu depind de legăturile altuia Nu există nicio relație între aceste două seturi de conexiuni Să revenim la diagramă, în care eroarea de la primul nod de ieșire este notată cu e p Rețineți că aceasta este diferența dintre valoarea dorită furnizată de datele de antrenament t p și valoarea reală de ieșire sau r Astfel, ej \u d (t x - aproximativ x ) Eroarea la cel de-al doilea nod de ieșire este notată ca e Diagrama arată că eroarea e t este distribuit proporțional cu ponderile legăturilor notate cu w u și w În mod similar, eroarea ar trebui să fie distribuit proporțional cu greutățile w și w Pentru a nu avea îndoieli cu privire la corectitudinea rezultatelor obținute, scriem aceste acțiuni într-o formă explicită Eroare e, informează despre valorile de corecție pentru greutăți w n și w Când este distribuită între noduri, cota în , informații despre care este folosită pentru a actualiza w n , este determinată de următoarea expresie : V +■ V V V Fracția e p folosită pentru a actualiza w este determinată de expresia analogă: L - L x x Aceste expresii te pot deruta puțin, așa că haideți să le privim mai detaliat Există o idee foarte simplă în spatele tuturor acestor simboluri, și anume că nodurile care contribuie mai mult la un răspuns de eroare primesc un semnal de eroare mai mare , în timp ce nodurile care contribuie mai puțin primesc un semnal de eroare mai mic Dacă w n este de două ori w (să spunem w u = și w = ), atunci fracția de e p folosită pentru a actualiza w ip este /( + ) = / = / Apoi, pentru o altă greutate mai mică w , ar trebui să rămână / e p , ceea ce poate fi confirmat folosind expresia /( + ) = / , al cărei rezultat este într-adevăr / După cum era de așteptat, dacă ponderile sunt egale, acțiunile corespunzătoare vor fi, de asemenea, egale Să ne asigurăm de asta Fie w u = și w = , atunci în ambele cazuri cota va fi /( + ) = / = / Înainte de a continua, să facem o pauză și să facem un pas înapoi pentru a aprecia ceea ce am făcut deja Știam că atunci când se determină amploarea corecțiilor pentru unii parametri interni ai rețelei, în acest caz, ponderile legăturii, este necesar să se utilizeze magnitudinea erorii Ați văzut cum se face acest lucru pentru greutățile care netezesc intrările ultimului strat de ieșire al rețelei neuronale De asemenea, ați văzut că creșterea numărului de noduri de ieșire nu îngreunează lucrurile, deoarece repetăm aceiași pași pentru fiecare nod de ieșire Minunat! Dar dacă numărul de straturi depășește două? Cum se actualizează greutățile legăturilor pentru straturi departe de ultimul strat de ieșire? Propagarea înapoi a erorilor cu un număr mare de straturi Următoarea diagramă prezintă un exemplu de rețea neuronală simplă cu trei straturi: intrare, ascuns și ieșire Deplasându-ne înapoi de la ultimul strat de ieșire (în extrema dreaptă), vedem cum informațiile de eroare din stratul de ieșire sunt folosite pentru a determina amploarea corecțiilor la coeficienții de greutate ai legăturilor de la care vin semnalele către acesta Aici folosim notația mai generală e output pentru erorile de ieșire și w cb pentru greutățile conexiunilor dintre straturile ascunse și de ieșire Calculăm erorile specifice asociate fiecărei legături distribuind eroarea proporțional cu ponderile corespunzătoare Reprezentarea grafică vă permite să înțelegeți mai bine ce calcule trebuie efectuate pentru stratul suplimentar Pur și simplu luăm greșelile deghizate la ieșirea stratului ascuns și distribuiți-le din nou peste conexiunile anterioare dintre straturile de intrare și ascunse proporțional cu coeficienții de greutate w Bc Următoarea diagramă ilustrează această logică Wec Dacă ar fi mai multe straturi, am repeta pur și simplu procedura descrisă pentru fiecare strat, lucrând înapoi de la ultimul strat de ieșire Ideea de a propaga acest flux de informații despre eroare (semnal de eroare) este intuitivă Ați avut din nou ocazia să vedeți de ce acest proces este descris de termenul de backpropagation Dacă am folosit mai întâi error e output semnalul de ieșire al nodurilor stratului de ieșire , apoi ce eroare este ascunsă vom folosi pentru noduri de strat ascunse? Aceasta este o întrebare bună, deoarece nu putem indica o eroare evidentă pentru un nod dintr-un astfel de strat Din calculele de propagare înainte, știm că fiecare nod din stratul ascuns are de fapt o singură ieșire Amintiți-vă cum am aplicat funcția de activare la suma ponderată a tuturor intrărilor la un nod dat Dar cum să determinăm eroarea pentru un astfel de nod? Nu avem valori de ieșire țintă sau dorite pentru nodurile ascunse Avem doar valorile țintă ale nodurilor ultimului strat de ieșire, iar aceste valori provin din exemplele de antrenament Să încercăm să găsim ceva inspirație privind din nou la diagrama de mai sus Asociate cu primul nod al stratului ascuns sunt două legături care ies din acesta, conducând la două noduri în stratul de ieșire Știm că putem distribui eroarea de ieșire între aceste legături, făcând exact la fel ca înainte Aceasta înseamnă că fiecare dintre cele două legături care ies din nodul stratului mijlociu are o eroare asociată cu ea Am putea recombina erorile acestor două legături pentru a obține eroarea pentru acest nod ca a doua cea mai bună abordare, deoarece nu avem valoarea țintă reală pentru nodul din stratul mijlociu Următoarea diagramă ilustrează această idee: Diagrama arată clar ce se întâmplă exact, dar, pentru a fi sigur, să o analizăm mai detaliat Avem nevoie de valorile de eroare pentru nodurile stratului ascuns pentru a le folosi pentru a actualiza greutățile legăturilor la stratul anterior Să notăm aceste erori ca fiind ascunse Dar nu avem un răspuns evident la întrebarea care este amploarea lor Nu putem spune că eroarea este diferența dintre valoarea de ieșire dorită sau țintă a acestui nod și valoarea sa reală de ieșire, deoarece datele cazului de antrenament oferă doar valorile țintă pentru nodurile ultimului strat de ieșire Nu spun absolut nimic despre ceea ce ar trebui să fie ieșirile nodului oricărui alt strat Aici se află miezul puzzle-ului Putem recombina erorile distribuite între legături folosind backpropagation, despre care ați aflat deja Prin urmare, eroarea de la primul nod ascuns este suma erorilor distribuite pe toate legăturile care ies din acest nod în direcția înainte Diagrama de mai sus arată că există o eroare de ieșire ® output » atribuită conexiunii cu greutate w n și o eroare de ieșire e output » atribuită conexiunii cu greutate w Cele de mai sus pot fi scrise ca următoarea expresie: ^ascuns = cu erori Y mma distribuite pe legături și W J выходной,! выходной,! іл/ + W ^ іл/ + W ^ р выходной, р выходной, W W \Л/ - w ѵ \Л/ - w ѵ входы входы Pentru a ilustra modul în care arată această teorie în practică, iată o diagramă care arată propagarea înapoi a erorilor într-o rețea simplă cu trei straturi folosind date specifice ca exemplu scârțâit strat Să urmărim retropropagarea uneia dintre erori Puteți vedea că după distribuirea erorii , la al doilea nod al stratului de ieșire între două legături cu ponderi , și , , obținem cote egale cu , și, respectiv, , De asemenea, se poate observa că eroarea combinată la al doilea nod al stratului ascuns este suma erorilor distribuite, în acest caz , și , , care însumează , Următoarea diagramă demonstrează aplicarea aceleiași tehnici la stratul care îl precede pe cel ascuns входной слой входной слой скрынлый слой скрынлый слой выходной слой выходной слой входы входы rezumat Rețelele neuronale sunt antrenate prin rafinarea greutăților conexiunilor lor Acest proces este condus de eroare , diferența dintre răspunsul corect oferit de datele de antrenament și valoarea reală de ieșire Eroarea la nodurile de ieșire este pur și simplu diferența dintre valorile de ieșire dorite și reale În același timp, amploarea erorii asociate nodurilor interne nu este atât de evidentă O modalitate de a rezolva această problemă este să distribuiți erorile stratului de ieșire între legăturile corespunzătoare proporțional cu greutatea fiecărei legături și apoi să combinați părțile disparate corespunzătoare ale erorii la fiecare nod intern Descrierea retropropagarii erorii folosind algebra matriceală Putem simplifica calculele consumatoare de timp folosind puterea de multiplicare a matricei? Anterior, când am efectuat calcule legate de propagarea semnalelor de intrare în direcția înainte , acest lucru ne-a fost foarte util Pentru a vedea dacă putem reprezenta propagarea înapoi a erorilor folosind o sintaxă matriceală mai compactă, descriem toți pașii procedurii de calcul folosind notația matriceală Apropo, făcând acest lucru vom încerca să vectorizăm procesul Capacitatea de a exprima mai multe calcule sub formă de matrice ne permite să scurtăm lungimea expresiilor corespunzătoare și face calculele computerizate mai eficiente deoarece calculatoarele pot folosi un model repetitiv de calcule pentru a accelera execuția operațiilor corespunzătoare Punctul de plecare vor fi erorile care apar la ieșirea rețelei neuronale din ultimul strat de ieșire În acest caz, stratul de ieșire conține doar două noduri cu erori e r și b : În continuare, trebuie să construim o matrice pentru erorile de strat ascunse Această sarcină poate părea complicată, așa că o vom face pe părți Prima parte a problemei este reprezentată de primul nod al stratului ascuns Privind din nou diagramele de mai sus, veți vedea că eroarea de la primul nod al stratului ascuns este formată din două contribuții din stratul de ieșire Cele două semnale de eroare sunt * w n / (w n + w ) și e * w / (w + w ) Acum acordați atenție celui de-al doilea nod al stratului ascuns și veți vedea din nou că eroarea de pe acesta se formează și din cauza a două contribuții: • * * / • Am văzut mai devreme cum topește aceste expresii Deci, pentru stratul ascuns, avem următoarea matrice, care pare puțin mai complexă decât mi-aș dori Ar fi grozav dacă această expresie ar putea fi rescrisă ca o simplă înmulțire matriceală pe care o avem deja Acestea sunt matrice de coeficienți de greutate, semnal direct și erori de ieșire Beneficiile pe care le putem obține din asta sunt enorme Din nefericire, nu există o modalitate ușoară de a transforma această expresie într- o multiplicare matrice super simplă, ca în cazul propagării directe a semnalelor Nu este ușor să deslușești toate aceste acțiuni, din care se formează elementele unei matrice mari Ar fi grozav dacă am putea reprezenta această matrice ca o combinație de matrice existente Ce se poate face? Avem nevoie disperată de o modalitate de a putea folosi multiplicarea matriceală pentru a îmbunătăți eficiența de calcul Ei bine, hai să îndrăznim! Aruncă o altă privire la expresia de mai sus Puteți vedea că cel mai important lucru pentru noi este să înmulțim erorile de ieșire cu ponderile lor asociate w Cu cât greutatea este mai mare, cu atât mai multă eroare este transmisă înapoi la stratul ascuns Acesta este un punct important În fracțiile care sunt elemente de matrice, partea inferioară joacă rolul unui factor de normalizare Dacă acest factor este neglijat, se poate pierde doar scalarea erorilor transmise prin mecanismul de feedback Astfel, expresia * w u / (w u + w ) va fi simplificată la e x * w n Făcând acest lucru, obținem următoarea ecuație Această matrice de greutate este similară cu cea pe care am construit-o mai devreme, dar este rotită în jurul diagonalei, astfel încât elementul din dreapta sus este acum în stânga jos, iar elementul din stânga jos este în dreapta sus O astfel de matrice se numește transpusă și se notează cu w T Mai jos sunt două exemple de transpunere a matricelor numerice pentru a vă ajuta să înțelegeți mai bine semnificația operației de transpunere Puteți vedea că se aplică chiar și atunci când numărul de coloane din matrice este diferit de numărul de rânduri Așadar, am realizat ceea ce ne-am dorit - am aplicat o abordare matriceală pentru a descrie propagarea înapoi a erorilor: U U^Kfl e( y W|wwa W ednoy * Desigur, acest lucru este pur și simplu minunat, dar am făcut ceea ce trebuie, eliminând factorul de normalizare? Se pare că acest model simplificat de propagare inversă a erorilor funcționează la fel de bine ca și cel mai complex pe care l-am dezvoltat mai devreme Pe blogul dedicat acestei cărți, veți găsi o publicație care prezintă rezultatele calculelor de retropropagare efectuate în mai multe moduri diferite: http://makeyourownneuralnetwork blogspot co uk/ / / error-backpropagation-revisted html Dacă abordarea noastră simplă funcționează într-adevăr bine, o vom lăsa! Cu puțină gândire, putem ajunge la concluzia că, chiar și în cazurile în care erori prea mari sau prea mici se propagă în direcția opusă , rețeaua însăși va corecta totul în timpul iterațiilor ulterioare de antrenament Lucrul important este că backpropagarea erorilor ia în considerare greutățile legăturilor și acesta este cel mai bun indicator că încercăm să alocăm în mod corect responsabilitatea pentru erorile care apar Am făcut o treabă grozavă, foarte mult! rezumat Propagarea inversă a erorilor poate fi descrisă folosind multiplicarea matriceală Acest lucru ne permite să scriem expresii într-o formă mai compactă, indiferent de dimensiunea rețelei neuronale și permite calculatoarelor să efectueze calcule mai eficient și mai rapid dacă limbajul de programare oferă o sintaxă pentru operațiile cu matrice De aici rezultă că utilizarea matricelor asigură o creștere a eficienței calculelor atât pentru propagarea semnalului în direcția înainte, cât și pentru propagarea erorilor în direcția inversă Luați o pauză binemeritată, deoarece următoarea secțiune teoretică vă va cere concentrare și efort mental Cum actualizăm de fapt greutățile Cu toate acestea, încă nu am început să rezolvăm sarcina principală - actualizarea greutăților conexiunilor din rețeaua neuronală Am lucrat în această direcție și aproape ne-am atins obiectivul Trebuie doar să defalcăm o idee cheie, astfel încât să nu mai existe ambiguități În acest moment, am învățat cum să calculăm propagarea înapoi a erorilor la fiecare strat al rețelei De ce avem nevoie de ea? Apoi, erorile ne spun cum ar trebui modificate greutățile legăturilor pentru a îmbunătăți răspunsul general rezultat la ieșirea rețelei neuronale Practic, asta am făcut cu clasificatorul liniar la începutul capitolului Cu toate acestea, nodurile nu sunt simpli clasificatori liniari La noduri, semnalele sunt însumate ținând cont de greutăți, după care li se aplică sigmoidul Dar cum reușim să actualizăm ponderile pentru legăturile care conectează aceste noduri mai complexe? De ce să nu folosiți algebra pentru a calcula greutățile direct? Ultima modalitate nu este potrivită pentru noi din cauza greutății calculelor corespunzătoare Sunt prea multe combinații de ponderi și prea multe funcții care depind de funcții, depind de alte funcții etc , pe care trebuie să le combinăm atunci când analizăm propagarea semnalului prin rețea Imaginați-vă chiar și o rețea neuronală mică cu trei straturi și trei neuroni în fiecare strat, ca cea cu care lucram înainte Cum ajustați factorul de ponderare pentru conexiunea dintre primul nod de intrare și cel de-al doilea nod de strat ascuns, astfel încât semnalul de la ieșirea celui de-al treilea nod să crească cu, să zicem, , ? Chiar dacă ai avut noroc și ai făcut acest lucru, rezultatul obținut ar putea fi distrus prin setarea unui factor de greutate diferit care îmbunătățește semnalul altui nod de ieșire După cum puteți vedea, aceste calcule sunt departe de a fi banale Pentru a vedea cât de netriviale sunt, uitați -vă la expresia descurajantă de mai jos, care reprezintă ieșirea unui nod strat de ieșire în funcție de intrările și greutățile conexiunii pentru o rețea neuronală simplă cu trei straturi de trei noduri Intrarea la nodul i este x , greutatea pentru legătura care conectează nodul de intrare i la nodul j al stratului ascuns este w (j În mod similar, ieșirea nodului j din stratul ascuns este x , iar greutatea pentru nodul i este x legătura care leagă nodul j al stratului ascuns cu nodul de ieșire k este egal cu w k Simbol neobișnuit E a b înseamnă suma expresiei care o urmează peste toate valorile cuprinse între a și b Wow! Mai bine stai departe de ea În loc să încercăm să fim foarte deștepți, nu am putea doar să repetăm combinații aleatorii de greutăți până când obținem un rezultat care ni se potrivește? Această întrebare nu este atât de naivă pe cât ar părea, mai ales când sarcina este cu adevărat dificilă Această abordare se numește metoda forței brute Unii oameni încearcă să folosească metode de forță brută pentru a sparge parolele, iar acest lucru poate funcționa dacă parola este un cuvânt semnificativ, nu unul foarte lung și nu doar o grămadă de caractere O astfel de sarcină este destul de în puterea unui computer de acasă suficient de puternic Dar imaginați-vă că fiecare greutate ar putea avea de valori posibile cuprinse între - și + , cum ar fi , , - , sau , Apoi, în cazul unei rețele neuronale cu trei straturi de trei noduri și greutăți, ar trebui să testăm de posibilități Dacă am avea o rețea neuronală mai tipică cu de noduri în fiecare strat, atunci ar trebui să testăm de milioane de greutăți diferite Dacă ar dura o secundă pentru a calcula fiecare set de combinații, ar dura aproximativ ani pentru a actualiza greutățile cu un singur exemplu de antrenament O mie de exemple de antrenament - și am avea mii de ani! După cum puteți vedea, abordarea cu forță brută este practic irealizabilă De fapt, pe măsură ce noi straturi, noduri sau opțiuni pentru enumerarea greutăților sunt adăugate în rețea, situația se deteriorează foarte repede Acest puzzle a sfidat matematicienii mulți ani și a primit o soluție practică reală abia în anii și Există opinii diferite despre cine a făcut-o primul sau cine a făcut descoperirea cheie, dar ceea ce contează pentru noi este că această descoperire întârziată a declanșat dezvoltarea explozivă a teoriei rețelelor neuronale moderne, care este acum capabilă să rezolve unele probleme foarte impresionante Dar totuși, cum rezolvăm această problemă aparent dificilă? Credeți sau nu, aveți deja mijloacele pentru a vă ocupa de asta pe cont propriu Tot ce trebuie să știți pentru asta, am discutat deja Acum putem continua Cel mai important lucru care ni se cere este să nu ne fie frică de pesimism Expresiile matematice pentru a determina semnalul de ieșire al unei rețele neuronale cu greutăți cunoscute nu sunt de obicei complexe și nu sunt ușor de înțeles Numărul de combinații diferite este prea mare pentru a încerca să le testăm una câte una Există și alte motive pentru pesimism Este posibil ca datele de antrenament să nu fie suficiente pentru a antrena în mod eficient rețeaua Pot exista erori în datele de antrenament și, prin urmare, validitatea presupunerii noastre că acestea sunt adevărate și pot fi învățate din ele este pusă sub semnul întrebării Numărul de straturi sau noduri din rețea în sine poate să nu fie suficient pentru a modela corect soluția problemei Aceasta înseamnă că abordarea pe care o adoptăm trebuie să fie realistă și să țină cont de aceste limitări Dacă respectăm aceste principii, s-ar putea să găsim o soluție care, chiar dacă nu este perfectă din punct de vedere matematic, ne va da rezultate mai bune, deoarece nu se bazează pe presupuneri idealiste false Să ilustrăm esența raționamentului nostru cu următorul exemplu Imaginați-vă un peisaj cu un relief foarte complex, cu înălțimi și depresiuni, precum și dealuri cu denivelări și gropi perfide E atât de întuneric de jur împrejur încât nu poți vedea nimic Știi că ești pe partea unui deal și trebuie să ajungi la fundul acestuia Nu aveți o hartă exactă a zonei Dar ai o lanternă Ceea ce ai de gând să faci? Poate vei folosi o lanternă și vei privi în jurul tău Lumina felinarului nu este suficientă pentru o vedere la distanță lungă și probabil că nu veți putea vedea întregul peisaj în ansamblu Dar veți putea vedea care secțiune este cea mai ușoară pentru a vă începe coborârea până la baza dealului și veți face câțiva pași mici în acea direcție Acționând astfel, încet, pas cu pas, te vei deplasa în jos, fără a avea o hartă generală și un traseu stabilite în prealabil Versiunea matematică a acestei abordări se numește metoda de coborâre a gradientului , iar motivul pentru aceasta nu este greu de văzut Odată ce ai făcut un pas în direcția pe care ai ales-o, te uiți înapoi pentru a vedea care cale te duce către obiectivul tău și mai faci un pas în acea direcție Continuați exact în același mod până când ajungeți în siguranță până la baza dealului Acum imaginați-vă că acest peisaj complex este o funcție matematică Metoda de coborâre a gradientului face posibilă găsirea minimului fără a avea măcar cunoștințe suficiente despre proprietățile acestei funcții pentru a găsi minimul prin metode matematice Dacă funcția este atât de complexă încât nu există o modalitate ușoară de a găsi minimul algebric, atunci putem folosi în schimb coborârea gradientului Desigur, s-ar putea să nu ne dea un răspuns exact pe măsură ce ne apropiem de răspuns pas cu pas, îmbunătățindu-ne treptat poziția Dar este mai bine decât să nu ai niciun răspuns În orice caz, putem continua să rafinăm răspunsul în pași și mai mici către minim până ajungem la precizia dorită Și ce legătură are această metodă cu adevărat eficientă de coborâre a gradientului cu rețelele neuronale? Dacă funcția complexă la care se face referire este eroarea de rețea, atunci coborând panta pentru a găsi minimul înseamnă că minimizăm eroarea Îmbunătățim semnalul de ieșire al rețelei Este exact ceea ce ne dorim! Pentru a vă fi clar, să ne uităm la utilizarea metodei de coborâre a gradientului cu un exemplu simplu Mai jos este un grafic al unei funcții simple y = (x - ) + Dacă aceasta ar fi o funcție care descrie o eroare, atunci ar trebui să găsim valoarea lui x care minimizează această funcție Imaginați-vă pentru o clipă că nu avem de-a face cu o funcție atât de simplă, ci cu una mult mai complexă Coborârea în gradient trebuie să înceapă de undeva Graficul arată un punct de plecare ales aleatoriu Ca un cuceritor al munților, explorăm locul în care ne aflăm și vedem în ce direcție merge coborârea Panta curbei este, de asemenea, indicată pe grafic, iar în acest caz corespunde unui gradient negativ Vrem să urmăm în direcția în jos, așa că ne deplasăm de-a lungul axei x la dreapta Deci creștem puțin x Acesta este primul pas al alpinistului nostru Puteți vedea că ne-am îmbunătățit poziția și ne-am apropiat de minimul real Să ne imaginăm că ne-am început coborârea din alt loc, așa cum se arată în graficul următor De data aceasta panta solului sub picioarele noastre este pozitivă, așa că ne deplasăm spre stânga, adică scade x putin Și din nou vezi că ne-am îmbunătățit situația, apropiindu-ne de minimul efectiv Putem continua în acest sens până când schimbările sunt atât de mici încât ne considerăm că am ajuns la un minim O rafinare necesară a acestei metode ar fi schimbarea dimensiunii treptelor pentru a evita depășirea minimului, rezultând sărituri nesfârșite în jurul acesteia Imaginați-vă că suntem la , metri de adevăratul minim, dar lungimea pasului nostru este întotdeauna de metri Apoi vom sări în mod constant minimul, deoarece la fiecare pas în direcția lui vom sări peste el Dacă micșorăm dimensiunea pasului proporțional cu dimensiunea gradientului, atunci pe măsură ce ne apropiem de minim, vom face pași din ce în ce mai mici În acest caz, presupunem că, cu cât este mai aproape de minim, cu atât mai puțin pe clonă Pentru majoritatea funcțiilor netede (diferențiabile continuu), această ipoteză este destul de acceptabilă Nu va fi valabil doar pentru funcțiile exotice în zig-zag cu urcușuri și coborâșuri în punctele pe care matematicienii le numesc puncte de întrerupere Ideea de a reduce dimensiunea pasului pe măsură ce dimensiunea gradientului scade, ceea ce este un bun indicator al apropierii de minim , este ilustrată de următorul grafic Apropo, ai observat că schimbăm x în direcția opusă gradientului? Un gradient pozitiv înseamnă că trebuie să micșorăm x Un gradient negativ necesită creșterea x Toate acestea sunt clar vizibile pe diagramă, dar este ușor să le pierdeți din vedere și să mergeți complet pe o cale greșită Folosind metoda de coborâre a gradientului, nu am încercat să găsim adevăratul minim algebric, deoarece ne -am pretins că funcția y \u d (x - ) + a fost prea complicată pentru aceasta Chiar dacă nu am putea determina panta curbei cu precizie matematică, am putea-o estima și, după cum puteți vedea, tot ne- ar conduce în direcția generală corectă Întreaga putere a acestei metode intră într-adevăr în joc în cazul funcțiilor care depind de mulți parametri De exemplu, în loc ca y să depindă de x , putem avea dependență de a, b, c, d, e și f Amintiți -vă că funcția semnalului de ieșire și, odată cu aceasta, funcția de eroare, depind de mulți factori de ponderare, adesea în sute ! Următorul grafic ilustrează din nou metoda de coborâre a gradientului , dar de data aceasta cu o funcție mai complexă, care depinde de doi parametri Graficul unei astfel de funcții poate fi reprezentat în trei dimensiuni, unde înălțimea reprezintă valoarea funcției Poate, privind această suprafață tridimensională, v-ați întrebat dacă metoda de coborâre în gradient ar putea duce la o altă vale, care se află în dreapta De fapt, această întrebare poate fi generalizată: coborârea gradientului nu duce uneori la o vale falsă pentru că unele funcții complexe au multe văi? Ce este o vale falsă? Aceasta este o vale care nu este cea mai adâncă Atunci la întrebarea pusă ar trebui să se răspundă afirmativ : da, acest lucru se poate întâmpla Următoarea ilustrație prezintă trei variante de coborâre în gradient, dintre care una are ca rezultat un minim fals Să luăm o pauză și să ne adunăm gândurile rezumat Coborârea gradientului este o modalitate foarte bună de a găsi minimul unei funcții și funcționează grozav atunci când funcția este atât de complexă încât este greu să lucrezi cu metode algebrice Mai mult, această metodă funcționează bine în cazul funcțiilor multor variabile, când alte metode nu funcționează sau nu pot fi implementate în practică Această metodă este rezistentă și la datele proaste și nu te va conduce departe în direcția greșită dacă funcția nu este descrisă perfect sau dacă luăm pași greșiți din când în când Semnalul de ieșire al unei rețele neuronale este o funcție complexă, greu de descris, cu mulți parametri, greutăți de legătură, care afectează semnalul de ieșire Deci, putem folosi coborârea gradientului pentru a determina valorile adecvate ale greutății? Putem, dacă alegem corect funcția de eroare Funcția de ieșire în sine nu este o funcție de eroare Dar știm că îl putem transforma cu ușurință într-unul, deoarece eroarea este diferența dintre valorile țintă de antrenament și valorile reale de ieșire Cu toate acestea, există ceva aici de care să fii atent Aruncă o privire la tabelul de mai jos cu datele de antrenament și valorile reale pentru cele trei noduri de ieșire împreună cu candidații pentru funcția de eroare Ieșire retelelor Rezultatul țintă Eroare (țintă-real) Eroare |target-actual| Eroare (țintă-real) , , , oh , , , - , , , Sumă , , Primul nostru candidat pentru o funcție de eroare este o diferență de valoare simplă (țintă - reală) Pare destul de rezonabil, nu-i așa? Dar dacă alegeți să utilizați suma erorilor din toate nodurile ca măsură generală a cât de bine este antrenată rețeaua, atunci acea sumă este zero! Ce s-a întâmplat? Este clar că rețeaua nu este încă suficient de instruită, deoarece valorile de ieșire ale celor două noduri diferă de valorile țintă Dar suma zero înseamnă nicio eroare Acest lucru se explică prin faptul că erorile pozitive și negative s-au anulat reciproc Rezultă că o simplă diferență de valori, chiar dacă anularea lor reciprocă a fost incompletă, nu este potrivită pentru a fi utilizată ca măsură a mărimii erorii Să mergem pe altă cale, luând valoarea absolută a diferenței În mod formal, aceasta este scrisă ca target-actual | și înseamnă că semnul rezultatului scăderii este ignorat Acest lucru ar putea funcționa , deoarece în acest caz, nimic nu se poate anula cu nimic Motivul pentru care această metodă nu a câștigat popularitate este că panta nu este o funcție continuă aproape de minim, ceea ce face dificilă utilizarea metodei de coborâre în gradient, deoarece vom sări constant în jurul văii în formă de V caracteristică funcției de eroare de un fel Când se apropie de minim, panta și, odată cu aceasta, mărimea treptei modificării variabilei, nu scade, ceea ce înseamnă riscul de depășire A treia opțiune este de a folosi pătratul diferenței ca măsură a erorii: (culoare-actuală) Există mai multe motive pentru care a treia opțiune este preferată față de a doua, inclusiv următoarele: simplifică calculele care determină panta pentru metoda coborârii în gradient; funcția de eroare este continuu netedă, ceea ce asigură funcționarea normală a metodei de coborâre a gradientului datorită absenței scăderilor și salturii în valorile funcției; pe măsură ce se apropie de minim, gradientul scade, ceea ce înseamnă că riscul depășirii minimului este redus dacă se folosesc pași mai mici Există și alte opțiuni? Da, sunteți liber să construiți orice funcție complexă pe care o considerați potrivită Unele dintre ele pot să nu funcționeze deloc, altele pot funcționa bine pentru o anumită gamă de sarcini, iar altele pot funcționa foarte bine, dar complexitatea lor excesivă duce la o cheltuire nejustificată a resurselor Între timp, am ajuns la linia de sosire! Pentru a folosi metoda de coborâre a gradientului, trebuie să determinăm panta funcției de eroare în raport cu greutățile Acest lucru necesită utilizarea calculului diferenţial Este posibil să fiți deja familiarizat cu acesta sau dacă nu sunteți familiarizat sau trebuie să vă reîmprospătați memoria, consultați Anexa A Calculul este pur și simplu o abordare riguroasă din punct de vedere matematic pentru a determina cantitatea de modificare a unor cantități atunci când altele se modifică De exemplu, vă permite să răspundeți la întrebarea cum se modifică lungimea unui arc în funcție de cantitatea de forță aplicată la capete În acest caz, ne interesează dependența funcției de eroare de coeficienții de greutate a conexiunilor din cadrul rețelei neuronale Cu alte cuvinte, ne interesează cât de mare este eroarea sensibilă la modificările coeficienților de greutate Să începem prin a ne uita la grafic, pentru că întotdeauna te pune pe teren solid atunci când încerci să rezolvi o problemă dificilă Acest grafic este exact același cu unul dintre cele precedente, pentru a sublinia că nu facem nimic fundamental nou De data aceasta, funcția pe care încercăm să o minimizăm este eroarea din ieșirea rețelei neuronale Acest exemplu simplu arată doar o greutate, dar știm că vor fi multe mai multe în rețelele neuronale Următoarea diagramă prezintă două greutăți și astfel funcția de eroare este reprezentată ca o suprafață D a cărei înălțime a punctului se modifică odată cu greutățile legăturii După cum puteți vedea, acum procesul de minimizare a erorii este mai degrabă ca coborarea în vale peste teren Vizualizarea unei suprafețe de eroare multidimensională în funcție de mai mulți parametri este mult mai dificilă, dar ideea de a găsi minimul folosind coborârea gradientului este aceeași Să formulăm în limbajul matematicii ce vrem: ee Această expresie reprezintă modificarea erorii E atunci când ponderea w jk se modifică Aceasta este panta funcției de eroare pe care trebuie să o cunoaștem pentru a începe coborârea gradientului la minimum Înainte de a extinde această expresie, să ne concentrăm temporar doar asupra greutăților legăturii dintre stratul ascuns și ultimul strat de ieșire Zona de interes pentru noi este prezentată în diagrama de mai jos Vom reveni la conexiunile dintre straturile de intrare și ascunse mai târziu Ne vom referi în mod constant la această diagramă, astfel încât în cursul calculelor să nu uităm ce înseamnă cu adevărat fiecare simbol Lăsați acest lucru să nu vă încurce, deoarece pașii procedurii de calcul nu sunt complicați și vor fi explicați, iar toate conceptele necesare au fost deja discutate mai devreme În primul rând, să scriem în mod explicit funcția de eroare, care este suma diferențelor pătrate dintre valorile țintă și cele reale, unde însumarea este efectuată pe toate cele n noduri de ieșire ee - ( t „ - o „ y E %k e %k este de fapt funcția de eroare E Putem simplifica imediat această expresie observând că semnalul de ieșire de la nodul n depinde numai de legăturile care sunt conectate la acesta Pentru nodul k, aceasta înseamnă că semnalul de ieșire o k depinde numai de ponderile w J|t , deoarece aceste ponderi se referă la legăturile care duc la nodul k Acest lucru poate fi văzut și ca faptul că semnalul de ieșire al nodului k este independent de ponderile w jb , unde b nu este egal cu k, deoarece nu există nicio legătură între aceste noduri Greutate w b se referă la conexiunea care duce la nodul de ieșire b, dar nu la Aceasta înseamnă că putem elimina toate semnalele despre n din această sumă, cu excepția celui asociat cu greutatea w Jk , i e ok Drept urmare, scăpăm complet de însumare! Un truc grozav de reținut pentru viitor Dacă ți-ai băut cafeaua până acum, s-ar putea să fi realizat că asta înseamnă că nu trebuie să însumezi toate nodurile de ieșire pentru a găsi funcția de eroare Am văzut deja cum se explică acest lucru: prin faptul că semnalul de ieșire al unui nod depinde numai de conexiunile care duc la acesta și de coeficienții lor de greutate Acest punct este adesea lăsat neexplorat în multe manuale, care pur și simplu dau expresia funcției fără nicio explicație Oricum, acum avem o expresie mai simplă: (- * Și acum folosim niște mijloace de calcul diferențial Amintiți-vă că, dacă trebuie să restaurați cunoștințele necesare în memorie, puteți oricând să vă uitați la Anexa A Membrul t k este o constantă și, prin urmare, nu se modifică atunci când w Jk se modifică , adică nu este o funcție w jk Ar fi foarte ciudat dacă exemplele adevărate care oferă valorile țintă s-ar schimba în funcție de factorii de ponderare! Aceasta ne lasă cu termenul ok , despre care știm că depinde de w k , deoarece factorii de ponderare afectează propagarea directă a semnalelor, care sunt apoi convertite în semnale de ieșire o k Pentru a descompune această problemă de diferențiere în părți mai simple, folosim regula lanțului (regula pentru diferențierea funcțiilor complexe) Puteți citi despre asta în Anexa A ee = deE spre a până la w jk Acum ne putem ocupa de fiecare dintre aceste părți una câte una Ne putem ocupa cu ușurință de prima parte, deoarece pentru aceasta trebuie doar să luăm o derivată simplă a unei funcții pătratice Ca rezultat, obținem: = - ( H - Cu cea de-a doua parte, va trebui să mânuiești puțin, dar acest lucru nu va cauza prea multe dificultăți Aici, o k este semnalul de ieșire al nodului k, care, rețineți, este rezultatul aplicării modului sig la semnalele care sosesc la acest nod Pentru o mai mare claritate , scriem acest lucru în mod explicit: = - ( t k - o k ) sigmoid ( Z w jk ■ o ) Aici despre este ieșirea nodului stratului ascuns anterior, nu ieșirea nodului ultimului strat Cum să diferențiem un sigmoid? Am putea face acest lucru pe cont propriu făcând calcule complexe și consumatoare de timp în conformitate cu ideile fundamentale prezentate în Anexa A, dar această muncă a fost deja făcută de alți oameni Prin urmare, vom folosi pur și simplu răspunsul deja cunoscut, așa cum fac în fiecare zi matematicienii din întreaga lume jl ckg/ioied ( x ) = sigmoid ( x ) - sigmoid ( x ) ) Eh Diferențierea unor funcții duce la expresii unei forme înfricoșătoare În cazul sigmoidului, rezultatul este foarte simplu Acesta este unul dintre motivele pentru utilizarea pe scară largă a sigmoidului ca funcție de activare în rețelele neuronale Folosind acest rezultat impresionant, obținem următoarea expresie: ■ —— = - ( t k - o k )• sigmoid ( w jk ■ ) ( - sigmoid ( w jk • ) ) jL ( E w jk • o i ) aw jk aw jk = - ( t k - o k ) • sigmoid ( w jk • o j ) ( - sigmoid ( Zj w jk - ) • Oj a venit ultimul factor? Acesta este rezultatul aplicării regulii lanțului la derivata sigmoidului, deoarece expresia sub semnul funcției sigmoidului () trebuie diferențiată și în raport cu variabila w Jk Acest lucru se face foarte simplu și are ca rezultat Înainte de a scrie răspunsul final, să scăpăm de factorul de la începutul expresiei Avem dreptate să facem acest lucru, deoarece ne interesează doar direcția gradientului funcției de eroare, astfel încât acest factor poate fi eliminat în siguranță Nu contează pentru noi ce factor va apărea la începutul acestei expresii , , sau chiar , atâta timp cât îl ignorăm întotdeauna Prin urmare, pentru simplitate, vom scăpa de el Expresia finală pe care o vom folosi pentru a modifica greutatea lui w jk arată astfel = - С t k - о la ) • - ( - ) • O j I eu eu Wow! Am reușit! Aceasta este expresia magică pe care o căutam Este cheia antrenării rețelelor neuronale Să analizăm pe scurt această expresie, ale cărei părți individuale sunt evidențiate în culoare Prima parte, cu care sunteți deja familiarizat , este eroarea (valoarea țintă minus valoarea reală) Argumentul sumă al sigmoidului este semnalul care merge la nodul stratului de ieșire și, pentru a simplifica forma expresiei, am putea desemna pur și simplu acest semnal ca i k Acționează ca intrarea nodului către k înainte ca funcția de activare să fie aplicată Ultima parte este rezultatul nodului j al stratului ascuns anterior Examinarea expresiei obținute în această perspectivă particulară face posibilă înțelegerea mai bună a relației dintre imaginea fizică a ceea ce se întâmplă cu panta funcției și, în cele din urmă, cu rafinarea coeficienților de greutate Acesta este un rezultat cu adevărat fantastic și putem fi mândri de noi înșine Drumul către acest rezultat este dat multor oameni cu mare dificultate Ne rămâne foarte puțin de făcut și ne vom atinge scopul Expresia pe care am stăpânit-o are scopul de a rafina greutățile conexiunilor dintre straturile ascunse și de ieșire Trebuie să terminăm treaba și să găsim panta unei funcții de eroare similare pentru coeficienții conexiunilor dintre straturile de intrare și ascunse Ar fi posibil să refacem toate calculele matematice în totalitate, dar nu vom face acest lucru Vom folosi interpretarea fizică descrisă anterior a componentelor expresiei pentru derivată și o vom reconstrui pentru noul set de coeficienți care ne interesează În acest sens, trebuie luate în considerare următoarele modificări Prima parte a expresiei pentru derivată, care era anterior eroarea de ieșire (valoarea țintă minus valoarea reală ), devine acum eroarea de ieșire recombinată a nodurilor ascunse calculată conform mecanismului de backpropagation cu care ești deja familiarizat Să-i spunem e A doua parte a expresiei, care include sigmoidul, rămâne aceeași, dar expresia sumă transmisă funcției se referă acum la straturile anterioare și astfel suma este efectuată peste toate intrările de strat ascunse netezite de greutățile legăturii care conduc la nodul ascuns j Am putea numi această sumă i Ultima parte a expresiei capătă semnificația semnalelor de ieșire o* ale nodurilor primului strat, iar în acest caz aceste semnale sunt de intrare În acest fel, am reușit să evităm cu grație calculele laborioase inutile, profitând din plin de toate avantajele simetriei problemei pentru construirea unei noi expresii În ciuda simplității sale, aceasta este o tehnică foarte puternică adoptată de matematicieni și oameni de știință eminenți După ce îl stăpânești, fără îndoială vei face o impresie grozavă colegilor tăi! Deci, a doua parte a răspunsului final, pentru care ne străduim (gradientul funcției de eroare prin coeficienții de greutate a conexiunilor dintre straturile de intrare și ascunse), ia următoarea formă: În această etapă, am obținut toate expresiile magice cheie necesare pentru a calcula gradientul dorit, pe care le folosim pentru a actualiza coeficienții de greutate pe baza rezultatelor antrenamentului pe fiecare exemplu de antrenament, ceea ce vom face acum Rețineți că direcția coeficienților se modifică în direcția opusă gradientului, care a fost arătat în mod repetat în diagramele anterioare În plus, netezim modificările parametrilor care ne interesează prin intermediul unui coeficient de învățare, care poate fi reglat pentru a se potrivi cu caracteristicile unei anumite probleme De asemenea, ați întâlnit această abordare atunci când am folosit -o în dezvoltarea clasificatoarelor liniare pentru a reduce impactul negativ al exemplelor proaste asupra eficienței învățării și atunci când minimizam funcția de eroare , pentru a evita salturile constante peste minim Să o punem în limbajul matematicii: PROPRIETAR - « ■ -— Greutatea actualizată w Jk este vechea pondere cu o corecție negativă, a cărei valoare este proporțională cu derivata funcției de eroare Corecția se scrie cu semnul minus, deoarece dorim ca ponderea să crească cu o derivată negativă și să scadă cu una pozitivă, așa cum am menționat deja mai devreme Simbolul a (alfa) este un multiplicator care netezește amploarea modificării pentru a evita trecerea la minim Acest coeficient este adesea denumit coeficient de învățare Această expresie este aplicată coeficienților de greutate a conexiunilor nu numai între straturile ascunse și de ieșire, ci și între straturile de intrare și cele ascunse Aceste două cazuri diferă în gradienții funcției de eroare, expresiile pentru care au fost date mai sus Înainte de a termina cu acest exemplu, să vedem cum ar arăta aceleași calcule în notația matriceală Pentru a face acest lucru, vom face ceea ce am făcut deja înainte - vom nota ce reprezintă fiecare element al matricei de modificare a greutății з з Am omis factorul de învățare a, deoarece este doar o constantă și nu afectează modul în care facem multiplicarea matriceală Matricea modificărilor de greutate conține valorile corecțiilor la coeficienții de greutate w jk pentru legăturile dintre nodul j al unui strat și nodul k al stratului următor Puteți vedea că prima parte a expresiei, în dreapta semnului egal, folosește valori din stratul următor (nodul k), iar a doua parte utilizează valori din stratul anterior (nodul j) Poate ați observat, uitându-vă la formula de mai sus, că matricea orizontală reprezentată de un singur rând este matricea transpusă a semnalelor Oj la ieșirea stratului anterior Evidențierea culorii elementelor matricelor vă va ajuta să înțelegeți că produsul punctual al matricelor funcționează excelent și în acest caz Folosind notația simbolică a matricelor, putem aduce această formulă la următoarea formă, care este foarte potrivită pentru implementarea într-un cod de program într-un limbaj care asigură lucrul eficient cu matrice ( I \u d (X - E la - Despre ( - Despre ) • OȚ i eu De fapt, această expresie nu este deloc complicată Sigmoidele au dispărut din vedere deoarece sunt ascunse în matricele de ieșire ale celor k noduri Asta e tot! Munca este gata rezumat Eroarea rețelei neuronale este o funcție a greutăților legăturilor interne Îmbunătățirea rețelei neuronale înseamnă reducerea acestei erori prin modificarea ponderilor specificate Selectarea directă a scalelor potrivite întâmpină dificultăți semnificative O abordare alternativă este îmbunătățirea iterativă a ponderilor prin reducerea funcției de eroare în pași mici Fiecare pas se face in directia celei mai rapide coborari din pozitia actuala Această abordare se numește coborâre în gradient Gradientul de eroare poate fi calculat fără prea multe dificultăți folosind calculul diferențial Exemplu de actualizare a greutăților Să ilustrăm aplicarea metodei descrise de actualizare a coeficienților de greutate pe un exemplu specific folosind date numerice Am lucrat deja cu rețeaua de mai jos, dar de data aceasta vom folosi valorile date ale semnalelor de ieșire ale primului și celui de-al doilea nod al stratului ascuns, o ! și Oj Aceste valori ilustrează doar aplicarea tehnicii și sunt alese în mod arbitrar și nu sunt calculate , așa cum ar trebui, din semnalele de ieșire cunoscute ale stratului de intrare входы входы выходы выходы Dorim să actualizăm greutatea w n pentru legătura dintre straturile ascunse și de ieșire, a căror valoare curentă este , Să notăm din nou expresia pentru gradientul de eroare unu - О la ) • ( - ) ' °j Să analizăm această expresie în părți • Prima parte (t k - o k ) este eroarea ^ deja cunoscută de dvs din diagramele anterioare Suma SjWjkQp transmisă sigmoidelor este ( , * , ) + ( , * * , ) = , Atunci sigmoidul /( -e' , ) este egal cu , Prin urmare, expresia intermediară este , * ( - , ) = , Ultima parte este doar semnalul o, care în acest caz este semnalul o, deoarece ne interesează ponderea w u unde j=l Prin urmare, această parte este pur și simplu egală cu , Înmulțind toate cele trei părți ale acestei expresii și fără a uita de semnul minus inițial, obținem valoarea - , Cu o rată de învățare de , , modificarea ponderii este - , * (- , ) = + , Prin urmare, noua valoare w u , determinată de suma valorii inițiale și a modificării acesteia, va fi , + , = , Aceasta este o schimbare destul de mică, dar după sute sau chiar mii de iterații, greutățile formează în cele din urmă o configurație stabilă care, într-o rețea neuronală bine antrenată, va produce rezultate compatibile cu exemplele de antrenament Pregătirea datelor În această secțiune, vom discuta cum să pregătim cel mai bine datele de antrenament și ponderile inițiale aleatoare și chiar să planificăm rezultatele în așa fel încât procesul de antrenament să aibă toate șansele de succes Așa e, ai citit totul bine! Nu toate încercările de a utiliza rețelele neuronale au succes și există multe motive pentru asta Unele dintre acestea pot fi eliminate prin selectarea atentă a datelor de antrenament și a greutăților inițiale și prin planificarea atentă a schemei semnalului de ieșire Să luăm în considerare toți acești factori unul câte unul Valori de intrare Aruncă o privire la graficul sigmoid de mai jos Este ușor de observat că, la valori mari ale semnalului de intrare, curba funcției se îndreaptă vizibil Îndreptarea semnificativă a funcției de activare este o sursă de probleme, deoarece un gradient este utilizat pentru a asimila noile valori ale greutăților în rețea Priviți din nou expresia pentru modificări de greutate Depinde de gradientul funcției de activare Utilizarea unor valori mici de gradient echivalează cu limitarea severă a capacității rețelei de a învăța Aceasta se numește saturație rețelei neuronale De aici rezultă că este mai bine să setați valori mici pentru semnalele de intrare Este curios că în acest caz nu pot fi setate prea mici, deoarece sunt incluse și în expresia specificată pentru modificările coeficienților de greutate Valorile de intrare prea mici pot fi, de asemenea, problematice, deoarece atunci când se prelucrează valori foarte mari sau foarte mici, precizia calculelor computerizate este redusă semnificativ O soluție bună la această problemă este scalarea semnalelor de intrare la valori între , și , Uneori, se introduce o mică prejudecată, să zicem , , pe intrări pentru a evita intrările zero, care sunt enervante deoarece la Oj= expresia de corecție a greutății este setată la zero, privând astfel rețeaua de capacitatea de învățare valorile de ieșire Valorile de ieșire ale rețelei neuronale sunt semnalele care apar la nodurile ultimului strat Dacă folosim o funcție de activare care nu produce valori mai mari de , atunci ar fi o prostie să încercăm să țintim o valoare mai mare Amintiți-vă că funcția logistică nici măcar nu atinge valoarea de , - doar se apropie de ea În matematică, aceasta se numește abordarea asimptotică a Următorul grafic ilustrează de ce funcția de activare logistică nu poate produce valori mai mari de , sau mai mici de zero în afara valorilor funcției de activare Dacă stabilim ținte în aceste intervale de neatins, interzise, atunci antrenarea rețelei va avea ca rezultat și mai multe greutăți în încercarea de a obține rezultate din ce în ce mai mari, care de fapt nu pot fi atinse niciodată datorită utilizării funcției de activare Înțelegem că acest lucru este la fel de rău ca saturarea rețelei Prin urmare, trebuie să ne mărim valorile de ieșire țintă în așa fel încât să fie valabile pentru o anumită funcție de activare, având în același timp grijă să evităm valorile care în realitate nu pot fi atinse niciodată Este obișnuit să se folosească un interval de valori de la , la , , dar unii dezvoltatori folosesc intervalul de la , la , , deoarece valorile , și , , pe de o parte, nu sunt valori țintă adecvate, iar pe de altă parte , ele pot duce la valori excesiv de mari ale coeficienților de greutate Greutăți aleatorii ale semințelor Același raționament se aplică aici ca și în cazul semnalelor de intrare și de ieșire Trebuie să evităm valorile inițiale mari ale ponderilor, deoarece utilizarea funcției de activare în acest interval de valori poate duce la saturarea rețelei, despre care tocmai am vorbit, și poate reduce capacitatea rețelei de a învăța din cele mai bune valori O opțiune este să alegeți valori dintr-o distribuție uniformă aleatorie a numerelor între - , și + , Acest lucru este mult mai bun decât utilizarea, să zicem, a unui interval de numere de la - la + Există o variantă mai bună? Destul de posibil Matematicienii și informaticienii au dezvoltat abordări pentru a defini regulile generale pentru stabilirea greutăților inițiale aleatorii în funcție de configurația specifică a rețelei și funcția de activare utilizată Rețetele corespunzătoare sunt foarte specifice, dar, în ciuda acestui fapt, îndrăznim să le abordăm! Nu vom intra în detaliile matematicii, dar ideea centrală este că, dacă un nod al rețelei neuronale primește o mulțime de semnale, iar comportamentul acestor semnale este bine definit, ele nu ating valori prea mari și sunt nu sunt distribuite într-un mod incredibil atunci coeficienții de ponderare nu ar trebui să încalce această stare a semnalelor în procesul de combinare și procesare a acestora de către funcția de activare Cu alte cuvinte, nu ar trebui să folosim factori de ponderare care distrug rezultatele încercărilor noastre de a scala cu atenție semnalele de intrare Esența regulii cu care au venit matematicienii este că ponderile sunt inițializate cu numere alese la întâmplare dintr-un interval a cărui estimare aproximativă este dată de reciproca rădăcinii pătrate a numărului de legături care duc la un nod Astfel, dacă trei legături duc la fiecare nod, atunci valorile inițiale ale greutăților nu trebuie să depășească valoarea /(^ ) = , Dacă fiecare nod are de conexiuni de intrare, atunci ponderile trebuie să fie în intervalul limitat de valoarea /(^ ) = , Acest lucru este intuitiv clar Unele greutăți prea mari ar muta funcția de activare în regiunea de valori mari, ceea ce ar duce la saturarea acesteia Și cu cât există mai multe conexiuni pe nod, cu atât se adună mai mulți coeficienți de greutate Prin urmare, regula generală care reduce intervalul de ponderi pe măsură ce crește numărul de legături pe nod are o explicație logică Dacă sunteți deja familiarizat cu ideea valorilor eșantionului extrase din distribuțiile de probabilitate, veți înțelege că această regulă se referă de fapt la o distribuție normală, pentru care media este zero și abaterea standard este reciproca rădăcina numărului de legături care duc la un nod Cu toate acestea, nu vom adera prea strict la această recomandare , deoarece presupune îndeplinirea unui număr destul de mare de condiții care nu sunt întotdeauna îndeplinite, cum ar fi utilizarea alternativă a tangentei hiperbolice th () ca funcție de activare și distribuția specifică a semnalelor de intrare Următorul grafic ilustrează vizual atât abordarea simplă, cât și cea mai complexă care utilizează distribuția normală În orice caz, nu setați niciodată ponderi inițiale la valori egale, în special zero Ar fi o variantă foarte nefericită! Această opțiune ar fi nereușită pentru că în acest caz toate nodurile rețelei ar primi aceleași semnale, iar semnalele la ieșirea fiecărui nod ar fi aceleași Dacă apoi procedăm la actualizarea ponderilor utilizând mecanismul de backpropagation al erorii, eroarea va fi distribuită uniform Nu ai uitat că eroarea este distribuită între noduri proporțional cu ponderile Acest lucru va avea ca rezultat aceleași corecții pentru toate ponderile, care, la rândul lor, vor avea ca rezultat ponderi având aceleași valori O astfel de simetrie joacă un rol extrem de negativ, deoarece dacă o rețea pregătită corespunzător trebuie să aibă valori inegale ale coeficienților de greutate (ceea ce este tipic pentru majoritatea problemelor), atunci nu veți ajunge niciodată în această stare O alegere și mai proastă este valorile zero, deoarece „omor” complet semnalul de intrare În acest caz, funcția de actualizare a greutății, care depinde de semnalele de intrare, este setată la zero, eliminând astfel complet posibilitatea de a actualiza greutățile Există mulți alți pași care pot fi luați pentru a îmbunătăți procedurile de pregătire a datelor de intrare, setarea greutăților și organizarea valorilor dorite de ieșire În scopul acestei cărți, ideile prezentate aici sunt suficient de simple pentru a fi înțelese și totuși suficient de puternice încât să ne oprim aici rezumat Rețelele neuronale nu funcționează în mod satisfăcător dacă datele de intrare și de ieșire, precum și valorile inițiale ale coeficienților de greutate, nu sunt de acord cu structura rețelei și specificul unei anumite probleme O problemă comună este saturația rețelei , o situație în care valorile mari ale semnalelor, adesea datorate valorilor mari ale coeficienților de greutate, conduc la semnale care se încadrează în regiunea valorilor aproape de zero ale gradientului funcției de activare Rezultatul este o scădere a capacității rețelei de a învăța din cele mai bune valori ale coeficienților de greutate O altă problemă este valorile zero ale semnalelor sau greutăților De asemenea, aceste valori privează complet rețeaua de oportunitatea de a învăța din cele mai bune valori ale coeficienților de greutate Greutățile legăturilor interne ar trebui să fie aleatorii și mici, dar nu zero Uneori sunt folosite reguli mai complexe , inclusiv, de exemplu, scăderea valorilor ponderii pe măsură ce crește numărul de legături care duc la un nod Semnalele de intrare ar trebui să fie scalate la valori mici, dar diferite de zero Intervalele utilizate în mod obișnuit sunt de la , la , și de la - , la + , , oricare dintre acestea se potrivește cel mai bine sarcinii Semnalele de ieșire trebuie să fie în intervalul pe care îl poate furniza funcția de activare Valorile mai mici sau egale cu și mai mari sau egale cu nu sunt compatibile cu sigmoidul logistic Stabilirea țintelor de antrenament în afara intervalului acceptabil va duce la greutăți și mai mari și în cele din urmă la saturarea rețelei Un interval bun este intervalul de valori de la , la , CAPITOLUL Construirea unei rețele neuronale în Python În acest capitol, ne vom crea propria noastră rețea neuronală Pentru aceasta folosim un computer, deoarece, după cum știți deja, va trebui să facem mii de calcule Cu ajutorul computerelor, acest lucru se poate face foarte rapid și fără pierderi de precizie Vom spune computerului ce să facă folosind instrucțiunile pe care le înțelege Este dificil pentru computere să înțeleagă limbajul uman obișnuit, cu inexactitatea și ambiguitatea inerente, pe care îl folosim în comunicarea de zi cu zi Dacă oamenii de multe ori nu pot fi de acord între ei, atunci ce putem spune despre computere! Piton Vom folosi limbajul de programare Python Este convenabil să începeți pentru că este ușor de învățat Instrucțiunile scrise în Python de către o persoană sunt ușor de citit și de înțeles de către alte persoane În plus, acest limbaj este foarte popular și este folosit în multe domenii, inclusiv cercetarea științifică, predarea, infrastructurile globale, precum și analiza datelor și inteligența artificială Python este predat din ce în ce mai mult în școli, iar popularitatea incredibilă a microcalculatoarelor Raspberry Pi a făcut ca Python să fie accesibil unui număr și mai mare de oameni, inclusiv copiilor și studenților În anexă veți găsi instrucțiuni despre cum să vă configurați Raspberry Pi Zero pentru a face toată munca de construire a propriei rețele neuronale cu Python Raspberry Pi Zero este un computer mic extrem de ieftin, care costă în prezent aproximativ USD Nu este o greșeală de tipar - într-adevăr costă doar USD! despre Python, ca orice alt limbaj de programare , dar în această carte ne vom concentra pe construirea propriei rețele neuronale și ne vom învăța doar Python atât cât avem nevoie pentru a atinge acest obiectiv special Python interactiv = IPython Nu vom instala noi înșine Python împreună cu toate extensiile posibile de matematică și grafică, deoarece această procedură poate fi însoțită de diverse erori în timpul procesului de instalare cauzate de utilizatorii neexperimentați În schimb, vom folosi o soluție preambalată numită IPython Shell-ul IPython conține limbajul de programare Python și mai multe extensii pentru efectuarea analizei datelor numerice și grafice , inclusiv pe cele de care vom avea nevoie Oferă un instrument de dezvoltare interactiv convenabil , Jupyter Notebook , care seamănă cu un notebook obișnuit și este ideal pentru a testa rapid idei noi și pentru a analiza rezultate Acest lucru elimină nevoia de a vă face griji cu privire la plasarea fișierelor de program, a interpreților și a bibliotecilor, ceea ce vă poate distrage atenția de la esența sarcinii, mai ales dacă ceva nu merge bine Vizitați site-ul web ipython org, care oferă diverse opțiuni pentru instalarea IPython Folosesc pachetul Anaconda care poate fi descărcat de pe http://www continuum io/downloads „Autoarea a folosit shell-ul interactiv IPython Notebook În versiunile recente ale IPython, inclusiv cea folosită pentru pregătirea traducerii, acest wrapper se numește Jupyter Notebook, care subliniază compatibilitatea sa nu numai cu Python, ci și cu alte limbaje de programare — Notă ed departe AlcіSHILKZe) bk Versiunea Python Pentru ъ BSD *ily si Pentru redntrrbution Descărcați mstaller Opbonal: mtegritatea datelor VenFy cu Versiunea Python Faceți dublu clic pe fișierul exe pentru a instala Anaconda și urmați instrucțiuni pe ecran Behmd un hrewall? Folosește acestea Poate că în momentul în care îl vizitați, site-ul va arăta diferit, dar acest lucru nu schimbă esența problemei Mai întâi, selectați fila care se potrivește cu sistemul dvs de operare : Windows, OS X sau Linux După aceea, asigurați-vă că selectați Python pentru descărcare , nu Python este adoptat într-un ritm din ce în ce mai mare, iar viitorul îi aparține Python este deja bine stabilit, dar trebuie să privim înainte și să începem să folosim Python ori de câte ori putem, mai ales pentru proiecte noi Majoritatea computerelor din zilele noastre sunt pe de biți și ar trebui să fie încărcate cu această versiune de Python Instalarea versiunii pe de biți poate fi necesară numai pentru computerele care au fost lansate cu mai mult de zece ani în urmă Instalați IPython urmând instrucțiunile de pe site Acest proces nu ar trebui să vă provoace dificultăți O introducere simplă în Python Vom presupune că ați instalat cu succes IPython urmând instrucțiunile de pe site și că acum aveți acces la acest shell Blocnotes Cu shell-ul interactiv Jupyter Notebook care rulează , faceți clic pe butonul Nou din marginea dreaptă a ferestrei și selectați Python din meniul care se deschide, care va deschide un blocnotes gol 'jupyter Untitledl (sunt Lwut Fișier Editare Vizualizare Inserare celulă Widgeturi Kemel Ajutor ✓ | Python O E + > f £ & ■ Cu Sobe * & CelIToolbar În [ ]: I Notepad-ul este interactiv, adică așteaptă să introduci o comandă, face ceea ce îi spui să facă, tipărește răspunsul și revine la așteptarea următoarei comenzi sau întrebări În general, se comportă ca un robot lacheu ascultător, care știe multe despre matematică și are calitatea în plus că nu obosește niciodată Când rezolvați probleme, chiar și de complexitate medie, este logic să le împărțiți în părți Acest lucru facilitează structurarea logicii sarcinii și, dacă ceva nu merge bine, mai ales într-un proiect mare, vă va fi mai ușor să găsiți partea în care a apărut eroarea În terminologia IPython , aceste părți sunt numite celule În blocul de note afișat mai sus, celula este goală și este posibil să fi observat un cursor pâlpâitor care vă invită să introduceți o comandă în ea Să spunem computerului să facă ceva De exemplu, să-i cerem să înmulțească două numere, să zicem, să înmulțească cu Introduceți textul „ * ” (fără ghilimele) în celulă și faceți clic pe butonul n!I (executare celulă), care seamănă cu jocul butonul din player Computerul ar trebui să execute rapid comanda și să returneze următorul rezultat jupyter Untitledl deconectare Fișier Editare Vizualizare Inserare Widgeturi pentru nucleul celulelor Ajutor ✓ | Python O B + » dacă, ca și mine, această metodă este mai convenabilă pentru dvs print("Bună lume!") Ca răspuns, computerul ar trebui să afișeze pur și simplu expresia „Hello World!” ' jupyter untitiedi r* L u t Fișier Edrt Vizualizare Insert Cell Kemel Widgets Ajutor | Pytbon O a * ** I W O cooe * e CelITodbar În[ ]: * În [ ]: prinț WW Salut Lume! — După cum puteți vedea, tastarea instrucțiunii pentru a scoate expresia „Bună ziua!” nu a eliminat celula anterioară care conținea propria instrucțiune și propria sa ieșire Acest instrument este foarte util atunci când construiești soluții cu mai multe părți pas cu pas Să vedem ce se întâmplă când rulăm următorul cod, care demonstrează o idee cheie Introduceți și executați acest cod într-o celulă nouă Dacă noua celulă goală nu apare în fereastră, faceți clic pe butonul cu semnul plus, după ce treceți cu mouse-ul peste ea, se afișează promptul Insert Cell Below (inserați celula mai jos) x= prinț(x) prinț(x+ ) y=x+ prinț(y) prinț(z) Prima linie, x = , arată ca o notație matematică care spune că x este În Python , aceasta înseamnă că valoarea este stocată în stocarea virtuală numită x Următoarea diagramă ilustrează acest concept simplu Valoarea „ ” rămâne în depozit până când este nevoie Nu ar trebui să fiți nedumerit de instrucțiunea prinț (x) , deoarece aceasta este instrucțiunea de afișare pe care ați întâlnit-o deja Va scoate valoarea stocată în x , care este Dar de ce ar tipări „ ” și nu „x”? Pentru că Python încearcă întotdeauna să calculeze cât de mult poate, iar x poate fi calculat și obține valoarea , care este afișată Următoarea linie, care conține instrucțiunea prinț(x+ ) , evaluează expresia x+ , rezultând valoarea finală + , sau Deci ne așteptăm să fie afișat „ ” Nici următoarea linie cu y=x+ nu vă va deruta , atâta timp cât urmați ideea că Python încearcă să facă toate calculele posibile În această declarație, instruim să stocăm valoarea într-un magazin nou, numit acum y, dar aceasta ridică întrebarea, ce valoare vrem să stocăm? Instrucțiunea specifică expresia x+ , care este egală cu + , adică Astfel, aceasta este valoarea care va fi stocată în y, iar următoarea instrucțiune o va afișa pe ecran Și ce se întâmplă cu șirul prinț (z) dacă nu atribuim nicio valoare lui z , așa cum am făcut pentru x și y? Vom primi un mesaj de eroare care ne informează într-un mod politicos că acțiunile pe care le întreprindem nu sunt corecte și încercând să fie cât mai de ajutor pentru a putea remedia eroarea Trebuie remarcat faptul că mesajele de eroare nu fac întotdeauna față cu succes sarcinii lor de a ajuta utilizatorul (și acest dezavantaj este tipic pentru majoritatea limbajelor de programare) Rezultatele rulării codului descris, inclusiv mesajul de eroare politicos „numele „z” nu este definit” (numele „z” nu este definit), pot fi văzute în ilustrația următoare jupyter untrted Е + аФЕФ+ИИС code Е + аФЕФ+ИИС code * ( CelIToolbar * ( CelIToolbar Logout Logout | Python O | Python OFișier Editare Vizualizare Insert Cell Kernel Widgets Ajutor În[ ]: * În [ ]: print( • li V ) Salut Lume! În [ ]: x• ІѲ prinț țx) printțx+ ) y • x+ orint(y) orint • z adică Nanreîrror Traceback (cel mai recent caii ultimul) în coteau) ;() -—> prinț z Namnbrror: numele „z* nu este definit Stocările menționate mai sus, etichetate x și y, folosite pentru a stoca valori precum și , sunt numite variabile Limbajul de programare utilizează variabile pentru a crea seturi generalizate de instrucțiuni, similar modului în care matematicienii folosesc simboluri algebrice precum „x” și „y” pentru a face declarații generale Automatizarea muncii Calculatoarele sunt grozave pentru a face același tip de sarcini din nou și din nou - nu gândesc și nu fac calcule mult mai repede decât pot oamenii cu calculatoare! Să vedem dacă putem face computerul să imprime pătratele primelor zece numere naturale, începând de la zero: pătrat, pătrat, pătrat etc Ne așteptăm să obținem următoarea serie de numere: , , , , , etc Toate aceste calcule le-am putea face noi înșine și apoi să folosim instrucțiunile de ieșire prinț ( ) , prinț ( ) , prinț ( ) , etc Va funcționa, dar scopul nostru este ca computerul să facă toată munca de calcul pentru noi În plus, făcând acest lucru, am rata oportunitatea de a crea un set tipic de instrucțiuni care vă permite să imprimați pătratele numerelor din orice interval dat Pentru a face acest lucru, trebuie mai întâi să ne înarmam cu câteva idei noi, pe care acum vom începe să le stăpânim Introdu următorul cod în următoarea celulă goală: listă (gamă (lO) ) Ar trebui să obțineți o listă de zece numere de la la Acest lucru este grozav: am făcut computerul să facă toată munca de creare a listei dându-i instrucțiunile corespunzătoare Acum suntem stăpânii, iar computerul este servitorul nostru! [ ]: list cange (adică) [ , , , , , , , , , ] Probabil că ești surprins că lista conține numere de la la și nu de la la Nu este un accident Multe lucruri legate de calculatoare încep de la , nu de la M-am împiedicat de asta de multe ori, presupunând că o listă de computere începe de la , nu de la Listele ordonate sunt utilizate pe scară largă ca contoare atunci când iterează iar și iar unele calcule, și în special atunci când sunt utilizate funcții iterative cuvântul cheie prinț pe care l-am folosit în ieșirea expresiei „Hello World!”, așa cum am făcut fără el când am calculat produsul * Utilizarea cuvântului cheie prinț este opțională atunci când lucrați cu Python în mod interactiv, deoarece shell-ul știe că vrem să vedem rezultatul instrucțiunii tastate O modalitate obișnuită de a efectua în mod repetat calcule cu un computer este utilizarea așa-numitelor bucle Cuvântul „ciclu” surprinde corect esența a ceea ce se întâmplă atunci când unele acțiuni sunt repetate din nou și din nou, poate chiar de un număr infinit de ori În loc să oferim o definiție formală a unui ciclu, este mult mai util să privim un exemplu specific, simplu Introduceți și executați următorul cod într-o celulă nouă pentru n în interval ( ): prinț(n) trece prinț("terminat") Există trei elemente noi aici, pe care le vom discuta pe rând Prima linie conține intervalul de expresii ( ) , cu care ești deja familiarizat Acesta creează o listă de numere de la la Construcția for n și n este cea care creează o buclă și face ceva pentru fiecare număr din listă, organizând contorul prin atribuirea valorii curente variabilei n Am discutat mai devreme despre atribuirea de valori variabilelor și același lucru se întâmplă aici: la prima trecere a buclei se efectuează atribuirea n= , iar la trecerile ulterioare, atribuirea n= , n= și așa mai departe până ajungem la ultimul element al listei, pentru care se va efectua misiunea n= Fără îndoială veți înțelege imediat sensul instrucțiunii prinț (p) din rândul următor, care pur și simplu imprimă valoarea curentă a lui n Dar observați indentarea înainte de textul prinț (p) Indentarea joacă un rol important în Python, deoarece este folosită în mod deliberat pentru a arăta subordonarea unei instrucțiuni față de alta, în acest caz bucla creată cu for n în construct Declarația de trecere semnalează sfârșitul buclei, iar următoarea linie , scrisă folosind indentarea normală, nu face parte din buclă Aceasta înseamnă că ne așteptăm ca cuvântul „terminat” să fie tipărit o singură dată, nu de zece ori Rezultatul prezentat mai jos confirmă așteptările noastre ( , , , , , , , , , ] Ip [ ]: pentru n în interval( ): print(n) prinț "/S gata Până acum ar trebui să vă fie clar că pentru a obține pătratele numerelor, ar trebui să afișați valorile n * n De fapt , putem face și mai bine și putem tipări expresii precum „Pătratul lui este ” Rețineți că în enunț, variabilele nu sunt citate și, prin urmare, evaluate pentru n în intervalul ( ) : prinț("Pătratul unui număr", n, "egal", n*n) trece prinț("terminat") Rezultatul este prezentat mai jos Ip [ ]: pentru n il interval(lO): prinț ( , n, , n*n) trece prinţ: Pătrat numere Ѳ egală Ѳ Pătrat numere unu egală unu Pătrat numere egală patru Pătrat numere egală Pătrat numere patru egală Un patrat numere egal Un patrat numere egal Un patrat numere egal Un patrat numere egal Un patrat numere egal gata Acesta este deja un exemplu destul de puternic! Putem face ca un computer să lucreze foarte repede cu un set minim de instrucțiuni În același mod, dacă am dori , am putea crește cu ușurință numărul de iterații la cincizeci sau chiar o mie folosind expresiile range( ) sau range(IOOO) Incearca-l tu insuti! Comentarii Înainte de a vă uita la alte comenzi Python minunate și incredibile, aruncați o privire la codul simplu de mai jos # următoarea afirmație imprimă cubul numărului prinț( ** ) Prima linie începe cu semnul lire sterline (#) Python ignoră toate liniile care încep cu acest caracter Cu toate acestea, aceste rânduri nu sunt inutile : ne pot ajuta să lăsăm comentarii utile în cod, care îi vor ajuta pe alții să-i înțeleagă scopul sau chiar pe noi înșine dacă ne referim la el după o pauză lungă Credeți-mă, vă veți mulțumi pentru că ați acordat timp pentru a comenta codul, mai ales când vine vorba de fragmente de cod complexe sau mai puțin evidente Nu o dată am încercat să descifrez codul pe care l-am scris cu propria mea mână, punându-mi întrebarea: „De fapt, ce am vrut să obțin cu asta?” Funcții În capitolul , am lucrat pe larg cu funcții matematice Le-am tratat ca pe niște mașini care preiau intrare, lucrează și produc rezultate Aceste funcții au acționat de la sine și le-am putea reutiliza Multe limbaje de programare, inclusiv Python, facilitează crearea de instrucțiuni reutilizabile La fel ca și funcțiile matematice , astfel de fragmente de cod reutilizabile, dacă sunt definite corect, pot acționa autonom și pot produce cod mai scurt și mai elegant De ce este redusă cantitatea de cod? Pentru că apelarea unei funcții prin referire la numele acesteia este de o sută de ori mai bună decât a scrie de fiecare dată întregul cod care alcătuiește funcția Ce înseamnă „definit corespunzător”? Aceasta înseamnă că ați definit în mod clar ce tip de intrare se așteaptă funcția și ce tip de ieșire produce Unele funcții acceptă doar numere ca intrare și, prin urmare, nu li se pot transmite litere care conțin cuvinte Din nou, puteți aprecia cel mai bine productivitatea ideii de a folosi funcții dacă ne uităm la un exemplu concret Introduceți și executați următorul cod o funcție care ia ca intrare două numere și imprimă media lor def medie (x, y): prinț ("primul număr x) prinț ("al doilea număr de y) a = (x + y) / , prinț("media este", a) întoarce a Să discutăm ce fac aceste comenzi Primele două rânduri care încep cu # caractere sunt ignorate de Python , dar le folosim ca comentariu pentru potențialii cititori ai codului Următorul def middle(x, y) : îi spune lui Python că vom defini o nouă funcție reutilizabilă Aici def (din engleză, define - define) este un cuvânt cheie; mijlocul este numele pe care îl dăm funcției Poate fi aleasă în mod arbitrar, dar cel mai bine este să folosiți nume descriptive care să ne amintească de ceea ce este destinată de fapt funcția Construcția dintre paranteze (x, y) îi spune lui Python că funcția primește două valori de intrare, care sunt denumite x și y în definiția funcției care urmează Unele limbaje de programare vă cer să specificați ce tip de obiect reprezintă o variabilă, dar Python nu face acest lucru și poate doar să vă certați prietenos ulterior pentru utilizarea greșită a unei variabile, cum ar fi încercarea de a folosi un cuvânt ca și cum ar fi un număr, sau alte prostii de acest gen Acum că i-am declarat lui Python că vrem să definim o funcție, trebuie să îi spunem lui Python exact ce face funcția Definiția funcției este indentată, așa cum se arată în codul de mai sus Unele limbi folosesc o varietate de paranteze pentru a clarifica ce părți ale unui program aparține o bucată de cod, dar creatorii lui Python au realizat că multe paranteze îngreunează citirea codului, în timp ce indentarea vă permite să obțineți un cod idee dintr-o privire structura ei Opinia este împărțită cu privire la înțelepciunea acestei abordări , deoarece oamenii cad adesea în capcana de a uita importanța indentării, dar personal îmi place ideea! Aceasta este una dintre cele mai utile idei care iese din lumea prea abstrusă a programării computerelor Înțelegerea semnificației codului în definiția funcției medii (x, y) nu vă va fi deloc dificilă, deoarece folosește tot ceea ce ați întâlnit deja Acest cod tipărește numerele transmise funcției atunci când este apelată Nu este necesar să scoatem argumente la orice pentru a calcula valoarea medie, dar facem acest lucru astfel încât să fie complet clar ce se întâmplă în interiorul funcției Următoarea instrucțiune calculează (x + y) / , și atribuie valoarea rezultată variabilei a Emitem valoarea medie doar pentru a controla ceea ce se întâmplă în cod Ultima instrucțiune este returnarea a Acesta completează definiția funcției și îi spune lui Python ce anume ar trebui să returneze funcția ca rezultat, similar mașinilor despre care am discutat mai devreme Dacă rulați acest cod, veți vedea că nu s-a întâmplat nimic Nu sunt afișate numere Chestia este că tocmai am definit o funcție , dar nu am numit-o încă De fapt, Python a înregistrat funcția și o va ține gata până când vom dori să o folosim Introduceți media ( , ) în celula următoare pentru a activa funcția pentru valorile și Apropo, în lumea programării computerelor, aceasta se numește apel de funcție După cum era de așteptat, această funcție va afișa cele două valori de intrare și media lor calculată Veți vedea, de asemenea, răspunsul tipărit separat, deoarece apelurile de funcție în sesiunile interactive Python sunt urmate de rezultatul valorii returnate Definiția funcției este prezentată mai jos, împreună cu rezultatele apelării acesteia cu instrucțiunea mediu( , ) și instrucțiunea medie ( , ) cu valori mari Experimentați pe cont propriu apelând funcția cu valori de intrare diferite IP [ ]: # o funcție care ia două numere ca intrare K și scoate media lor Media anilor "dchee (x, y) : prinț h !> id eh x) prinț ( j JYi > S V Ch "I) ", y) a - (x + y) / print( J, , a) retur a Ip [ ]: medie ( , ) primul număr - al doilea număr - media este , Z Ѳ În[ ]: medie ѲѲ,ЗѲ primul număr - al doilea număr - valoarea medie este de , , Poate ați observat că în codul funcției, media a două valori se găsește împărțind nu la , ci la , De ce am făcut asta? Aceasta este o caracteristică a lui Python care nu îmi place Dacă ar fi să împărțim la , rezultatul ar fi rotunjit în jos la cel mai apropiat număr întreg, deoarece Python ar trata doar ca pe un număr întreg Acest lucru nu ar schimba rezultatul apelării mediei( , ) deoarece / este egal cu , adică număr întreg Cu toate acestea, în cazul unui apel, valoarea medie medie ( ) este de / , i e ar fi rotunjit la Mi se pare nerezonabil, dar merită să țin cont dacă codul tău nu se comportă așa cum era de așteptat Împărțirea la îi spune lui Python că intenția noastră este într-adevăr să lucrăm cu numere care pot avea o parte fracțională și nu vrem ca acestea să fie rotunjite Să luăm o pauză și să ne felicităm Am definit o funcție reutilizabilă, unul dintre cele mai importante și puternice elemente atât ale matematicii, cât și ale programării computerelor Vom folosi funcții reutilizabile atunci când scriem propriul cod de rețea neuronală De exemplu, este logic să creați o funcție reutilizabilă care implementează calcule sigmoide, astfel încât să poată fi apelată de mai multe ori Matrice Matricele nu sunt altceva decât tabele de valori și sunt cu adevărat utile Ca și în cazul tabelelor, vă puteți referi la anumite celule după numerele de rând și coloane Probabil știți că acesta este modul în care vă puteți referi la celulele din foile de calcul (de exemplu, B sau C ) și puteți efectua calcule pe ele (de exemplu, C + D ) Când vine vorba de scrierea codului rețelei neuronale, folosim matrice pentru a reprezenta matrice de intrări, greutăți și ieșiri Dar nu numai acestea, ci și matrice care reprezintă semnale în cadrul rețelei neuronale și propagarea lor în direcția înainte, și matrice care reprezintă propagarea înapoi a erorilor Deci, să ne familiarizăm cu matricele Introduceți și executați următorul cod: import numpy Ce face acest cod? Comanda de import îi spune lui Python să aducă resurse de calcul suplimentare dintr-o altă sursă pentru a extinde gama de instrumente disponibile În unele cazuri, aceste instrumente suplimentare fac parte din Python, dar nu sunt într-o stare de pregătire pentru utilizare imediată, pentru a nu împovăra Python în mod inutil De cele mai multe ori, extensiile nu fac parte din setul de instrumente Python de bază, ci sunt create de terți ca resurse auxiliare disponibile pentru utilizare publicului În acest caz, importăm un set suplimentar de instrumente incluse într-un singur modul numit numpy Pachetul numpy este foarte popular și oferă o serie de caracteristici utile, inclusiv matrice și operații cu matrice Introdu codul de mai jos în celula următoare a=numpy zeros( [ , ] ) prinț(a) Acest cod folosește un modul numpy importat pentru a crea o matrice x cu toate celulele care conțin valori zero Stocăm întreaga matrice în variabila a și apoi o imprimăm pe ecran Rezultatul confirmă că tabloul este într-adevăr format din zerouri, stocate ca un tabel cu trei rânduri și două coloane În [? ]: import nunipy În [ J: a - numpy zeros( ( , ] ) prinț a ([ ѳ ѳ ] [ ] [ ѳ j ]] Și acum modificăm conținutul acestei matrice și înlocuim unele dintre zerourile sale cu alte valori Codul de mai jos arată cum să faceți referire la anumite celule pentru a înlocui valorile stocate în ele cu altele noi Este ca și cum ai accesa celulele potrivite dintr-o foaie de calcul a[ , ] = a[ , ] = a[ , ] = a[ , ] = prinț(a) Prima linie actualizează celula din rândul și coloana , înlocuind tot ce era stocat anterior în ea cu valoarea În rândurile rămase, celelalte celule sunt actualizate în același mod, iar ultima linie imprimă matricea pe ecran folosind declarație prinț ( a) Ilustrația de mai jos arată cum arată matricea după toate modificările În ( ): numpy â - numpy zeros( [ , ] ) prinț (a) [[e-M [e [ ѳ e ]] În [ ]: a[ѳ,I] • a[Ѳ, ] - a[ ,I • a[ , ] • orlnt(a) [[ eu ] * ] ]] Acum că știți cum să atribuiți valori elementelor matricei, probabil vă întrebați cum puteți obține valoarea unui singur element fără a afișa întreaga matrice? Acest lucru se face foarte simplu Pentru a face referire la conținutul unei celule matrice pe care dorim să o afișam sau să o atribuim unei alte variabile, trebuie doar să utilizați o expresie precum a [ , ] sau a [ , ] Acesta este exact ceea ce demonstrează fragmentul de cod de mai jos prinț(a[ , ]) ѵ = a( , ] prinț(v) Când rulați acest exemplu, veți vedea că prima instrucțiune prinț scoate valoarea , i e continutul celulelor [ , ] Următoarea instrucțiune atribuie valoarea elementului de matrice a[ , ] variabilei v și imprimă valoarea acestei variabile După cum era de așteptat, ieșirea este În [ ]: print(a[ ,l]) v - a[ ,Ѳ] prinț v Ѳ Numerotarea coloanelor și rândurilor începe de la , nu de la Elementul din stânga sus este notat ca [ , ] mai degrabă decât [ , ] De aici rezultă că denumirea [ , ] și nu [ , ] corespunde elementului din dreapta jos Uneori am probleme cu asta pentru că uit că în lumea computerelor, multe lucruri încep cu , nu cu Dacă încercăm, de exemplu, să ne referim la un element de matrice a[ , ] , primim mesajul despre o eroare În [ ]: # încercați să accesați un element inexistent al matricei • ' , IndrxError Traceback (cel mai recent caii las t) în () # încercarea de a accesa un element de matrice non-sui^staumadeiu - - > a c Indexfc'rror: indexul este în afara limitelor pentru axa cu dimensiunea Matricele, sau matricele, sunt utile pentru rețelele neuronale, deoarece ne permit să simplificăm instrucțiunile pentru efectuarea de calcule intensive legate de propagarea semnalului și de retropropagarea erorilor în rețea, ceea ce a fost discutat în Capitolul Reprezentarea grafică a tablourilor Ca și în cazul tabelelor și listelor numerice mari, este destul de dificil de înțeles sensul numerelor conținute în elementele unui tablou de dimensiuni mari În același timp, vizualizarea lor vă permite să vă faceți rapid o idee generală a ceea ce înseamnă O modalitate de a afișa grafic tablouri numerice bidimensionale este reprezentarea lor ca suprafețe bidimensionale, a căror culoare în fiecare punct depinde de valoarea elementului de matrice corespunzător Metoda de a stabili o corespondență între culoarea suprafeței și valoarea elementului matrice depinde de dvs De exemplu, puteți converti valorile în culoare folosind o scară de culoare sau puteți picta întreaga suprafață în alb, cu excepția punctelor negre, care corespund unor valori care depășesc un anumit prag Să reprezentăm grafic matricea mică x pe care am creat-o mai devreme să extindem capacitățile grafice ale lui Python Acest lucru necesită importarea codului Python suplimentar scris de alte persoane Este ca și cum ai împrumuta o carte de rețete de la un prieten, ai pune-o pe raftul tău și ai folosi-o pentru a găti mâncăruri pe care nu le-ai putut găti până acum Mai jos este instrucțiunea cu care importăm pachetul de care avem nevoie pentru a lucra cu grafica: import matplotlib pyplot Aici , tplotlib pyplot este numele noii „cărți de bucate” pe care o împrumutăm În toate astfel de cazuri, numele modulului sau al bibliotecii care vă oferă cod suplimentar este afișat după cuvântul cheie import Pe măsură ce lucrați cu Python , deseori trebuie să importați elemente suplimentare care vă fac viața mai ușoară prin reutilizarea codului util de la terți Poate într-o zi vei dezvolta cod pe care îl poți împărtăși colegilor tăi! În plus, trebuie să îi spunem lui IPython că orice grafică ar trebui să fie afișată în notebook, și nu într-o fereastră separată Acest lucru se face cu următoarea directivă: %matplotlib inline Acum suntem complet pregătiți să prezentăm matricea grafic Introduceți și executați următorul cod: matplotlib pyplot imshow(a, interpolation="nearest") În [ ]: import numpy a - numpy zeros( [ , ] ) a[O, ] - a[Ѳ, ] - a[ ,Э] - a[ ,l] - În [ ]: import matplotlib pyplot Xmatplotlib inline În ( ]: matplotlib pyplot imshow a, interpolare- Minunat! Am reușit să prezentăm conținutul matricei sub forma unei diagrame colorate Puteți vedea că celulele care conțin aceleași valori sunt umplute cu aceleași culori Mai târziu, vom folosi aceeași funcție imshow() pentru a vizualiza valorile pe care le vom primi de la rețeaua noastră neuronală Pachetul IPython include un set bogat de instrumente pentru vizualizarea datelor Ar trebui să le studiați singur pentru a aprecia gama posibilităților lor Chiar și funcția imshow() oferă multe opțiuni pentru prezentarea grafică a datelor, cum ar fi utilizarea diferitelor palete de culori Obiecte Ar trebui să fiți familiarizat cu un alt concept fundamental folosit în Python, conceptul de obiect Obiectele sunt oarecum similare cu funcțiile reutilizabile, prin aceea că, odată ce le-ați definit, vă puteți referi la ele de mai multe ori Dar, în comparație cu funcții, obiectele sunt capabile de mult mai mult Cel mai bun mod de a cunoaște obiectele nu este de a discuta concepte abstracte, ci de a privi un exemplu concret Aruncă o privire la următorul cod # clasă de obiecte Câine (câine) clasa caine: # câini pot latră def bark(seif): prinț("Uau!") trece trece Să începem cu ceea ce știm deja În primul rând, codul include funcția bark() După cum puteți vedea, atunci când această funcție este apelată, va tipări cuvântul „Woof!” Este destul de simplu Acum să ne uităm la codul ca întreg Veți vedea clasa de cuvinte cheie urmată de numele Câine și o structură care arată ca o funcție Puteți face imediat paralele între această structură și o definiție a funcției, care vine și cu un nume Diferența este că cuvântul cheie def este folosit pentru a defini funcții , în timp ce cuvântul cheie class este folosit pentru a defini obiecte Înainte de a aprofunda în discuția despre modul în care această structură, numită clasă, are obiecte, să ne întoarcem din nou la codul simplu, dar real, care dă viață acestor concepte sizzles = Dog() sizzles bark() Prima linie creează variabile sizzles, care pare să provină dintr-un apel de funcție De fapt Dog() este o funcție specială care creează o instanță a clasei Dog Acum ați văzut cum să creați diverse entități din definițiile clasei Aceste entități sunt numite obiecte În acest caz, am creat un obiect sizzles din definiția clasei Dog și putem presupune că acest obiect este un câine! Următoarea linie apelează funcția bark() pe obiectul sizzles Sunteți deja oarecum familiarizat cu acest lucru, deoarece ați lucrat anterior cu funcții Dar tot trebuie să te obișnuiești cu faptul că funcția bark() este numită ca și cum ar fi parte din obiectul sizzles Acest lucru este posibil deoarece toate obiectele create pe baza clasei Dog au această funcție, deoarece este definită în ea Să descriem totul în termeni simpli Am creat o variabilă sizzles, o variație a clasei Dog Variabila sizzles este un obiect creat din șablonul clasei Dog Obiectele sunt instanțe ale unei clase Următorul exemplu arată ce am făcut până acum și confirmă că funcția sizzles bark() scoate de fapt cuvântul „woof!” Іп [ ]: # clasă obiect Câine (câine) clasă Câine: # dogs yaogut lopt b^rk(self): prinț ( Tâja! ') pass pas s În [adică]: sfârâie - Câine() În[ ]: sizzles bark() Tip! Este posibil să fi observat elementul seif obscur din definiția funcției - bark (seif) Este acolo pentru a-i spune lui Python cărui obiect îi este atribuită funcția atunci când este creată Cred că acest lucru ar trebui să fie evident, deoarece definiția funcției bark() este inclusă în definiția clasei, ceea ce înseamnă că Python știe deja la ce obiect ar trebui să fie atașat , dar aceasta este părerea mea personală Să ne uităm la exemple de utilizare mai utilă a obiectelor și claselor Aruncă o privire la următorul cod sfaraie = caine() mutley = caine() sizzles bark() mutley bark() În [ ]: sizzles - Dog() mutley ■ Dog() sizzles bark() mutley bark Bătătură! Bătătură! E deja interesant! Am creat două obiecte: sizzles și mutley Este important de înțeles că ambele au fost create pe baza aceleiași definiții a clasei Câini Minunat! Mai întâi definim cum ar trebui să arate și să se comporte obiectele, apoi le creăm instanțe reale Aceasta este esența diferenței dintre clase și obiecte: primele sunt descrieri ale obiectelor, în timp ce ultimele sunt instanțe reale de clasă create în conformitate cu acele descrieri Clasa este rețeta plăcintei, iar obiectul este plăcinta în sine , făcută conform rețetei Procesul de creare a obiectelor pe baza unei descrieri de clasă poate fi explicat folosind următoarea ilustrație ilustrativă Și ce ne oferă crearea de obiecte pe baza clasei? De ce toate aceste probleme? Nu ar fi fost mai bine să scriem pur și simplu expresia „Woof!” fara niciun cod suplimentar? În primul rând, este logic să faceți acest lucru atunci când este nevoie de a crea multe obiecte de același tip Prin crearea acestor obiecte într-un singur model bazat pe clasă, mai degrabă decât descrierea completă a fiecăruia individual, economisiți mult timp Dar adevăratul avantaj al obiectelor este că oferă o colecție compactă de date și funcționalitate într-un singur loc Organizarea centralizată a fragmentelor de cod sub formă de obiecte cărora le aparțin în mod natural face mult mai ușoară înțelegerea structurii programului, mai ales în cazul sarcinilor complexe, ceea ce reprezintă un mare plus pentru programatori Câinii latră Butoanele răspund la clicuri Difuzoarele scot sunete Imprimantele imprimă sau se plâng dacă hârtie se epuizează În multe sisteme informatice, butoanele, difuzoarele și imprimantele sunt într-adevăr obiecte ale căror funcții le activați Funcțiile care aparțin obiectelor se numesc metode Ați văzut deja includerea de funcții în obiecte când am adăugat funcția bark() la definiția clasei Dog, iar obiectele sizzles și mutley create din această clasă au inclus această metodă Ai văzut că amândoi au „lătrat” în exemplul de mai sus! Rețelele neuronale iau o anumită intrare (input ), efectuează unele calcule și produc ieșire (ieșire) De asemenea, știți că ei pot fi antrenați Ați văzut deja că aceste acțiuni - antrenament și emiterea unui răspuns - sunt funcții naturale ale unei rețele neuronale, adică ele pot fi considerate funcții ale unui obiect de rețea neuronală De asemenea, vă amintiți că rețelele neuronale au date intrinseci asociate cu ele - ponderile conexiunilor dintre noduri De aceea ne vom crea rețeaua neuronală ca obiect Pentru a ne face o idee mai bună despre capacitățile obiectelor, să adăugăm la clasă variabile care stochează date specifice pentru anumite obiecte, precum și metode care vă permit să vizualizați și să modificați aceste date Aruncă o privire la definiția actualizată a clasei de câini de mai jos Include o serie de elemente noi, pe care le vom lua în considerare separat # definiție clasei de obiecte clasă câine câine: metoda de inițializare a unui obiect cu date interne def init (seif, petname, temp) : self name = nume de companie; seif temperature = temp; obține starea definiției de stat (seif): prinț("nume câine: ", self name) prinț("temperatura câinelui: ", seif temperature) trece temperatura setata def setTemperature (seif, temp) : seif temperature = temp; trece câinii pot latră def bark(seif): prinț("Uau!") trece trece În primul rând, vreau să vă atrag atenția asupra faptului că am adăugat trei funcții noi la clasa Dog Aveam deja funcția bark(), iar acum am inclus în plus funcțiile init () în clasă, status() și setTemperature() Procedura pentru adăugarea de noi funcții este destul de simplă Pentru ca câinele să nu poată doar să latre cu funcția bark() , am putea opțional să-i oferim posibilitatea de a strănuta cu funcția de strănut () dacă dorim Dar care sunt acele variabile între paranteze după numele noilor funcții? De exemplu, funcția setTemperature este de fapt definită ca setTemperature (seif, temp) Funcția cu numele ciudat init este de fapt definită ca init (seif, nume de companie, temp) Aceste variabile, ale căror valori le așteaptă funcția în momentul apelului, se numesc parametri Amintiți-vă de funcția de calculare a mediei аѵд (x, y) , cu care aveți deja confruntat? Definiția funcției avod() a indicat în mod explicit că funcția se aștepta la doi parametri Prin urmare, funcția init () are nevoie de parametrii petname și temp, în timp ce funcția setTemperature () - numai în parametrul temp Să aruncăm o privire în interiorul acestor funcții Să începem cu o funcție cu numele neobișnuit init () De ce i s-a dat un nume atât de complicat? Acesta este un nume special și Python va apela funcția init () de fiecare dată când este creat un nou obiect al acestei clase Acest lucru este foarte util pentru a face orice lucru pregătitor înainte de a utiliza efectiv obiectul Deci, ce se întâmplă exact în această funcție de inițializare magică? Creăm două variabile noi: seif name și seif temperatura Puteți afla valorile lor din variabilele petname și temp transmise funcției Partea seif din nume înseamnă că aceste variabile sunt proprietatea obiectului, adică aparțin acestui obiect special și nu depind de alte obiecte Dog sau de variabile generale Python Nu vrem să confundăm numele acestui câine cu numele altuia! Dacă acest lucru vi se pare prea complicat, nu vă faceți griji, lucrurile vor deveni mult mai ușoare când vom ajunge la un exemplu anume Următoarea pe linie este funcția status() , care este foarte simplă Nu ia parametri și pur și simplu emite valorile variabilelor de cale și temperatură ale obiectului Dog În cele din urmă, funcția setTemperature() preia un parametru temp , a cărui valoare este atribuită variabilei interne seif atunci când este apelată temperatura Aceasta înseamnă că, chiar și după ce obiectul este creat, îi puteți schimba temperatura oricând și puteți face acest lucru de câte ori aveți nevoie Nu vom pierde timpul discutând de ce toate aceste funcții, inclusiv bark() , iau atributul seif ca prim parametru Aceasta este o caracteristică a lui Python care personal mă enervează puțin, dar așa este evoluția lui Python Prin proiectare, acest lucru ar trebui să reamintească lui Python că funcția pe care urmează să o definiți aparține obiectului la care face referire seif Dar, de fapt, acest lucru este deja atât de evident, deoarece codul funcției este în interiorul clasei Astfel, nu ar trebui să te surprindă că până și programatorii profesioniști Python poartă discuții aprinse despre asta, așa că nu ești singur în compania celor care sunt perplexi de această abordare Pentru a clarifica tot ceea ce am vorbit, să ne uităm la un exemplu concret În codul de mai jos, vedeți clasa Dog actualizată definită cu noile funcții și un nou obiect lassie creat cu parametri, dintre care unul își setează numele la „Lassie”, iar celălalt își setează temperatura la unu Xn # definiție de clasă obiect câine classDcg: o modalitate de a inițializa un obiect cu date interne def init (seif, petname, temp): seif pashe ■ nume de companie; seif temperature " temp; obține stare stare def (seif): prinț( \self name) print( »■ ' seif,temperature) trece temperatura setata def s&tTeaipfcpatu"'fe(self ,temp) : seif temperatură ■ temp; trece câini pot latră def portocaliu(auto): print(" G- ] ") trece trece În [ ]: creați un nou obiect câine bazat pe clasa Dog lassie - DogC'Vj ) În ( ): lassie status numele câinelui: Lassie temperatura câinelui: După cum puteți vedea, apelarea funcției status() pe obiectul lassie din clasa Dog afișează numele și temperatura curentă De la crearea obiectului, această temperatură nu s-a schimbat Să încercăm să schimbăm temperatura obiectului și să verificăm dacă acesta s-a schimbat într-adevăr introducând următorul cod lassie SetTemperature( ) lassie status() Rezultatul este prezentat mai jos În[ ]: * creați un nou obiect câine pe baza clasei Dog lassie - Dog( , r ) În [ ]: lassie status() numele câinelui: Lassie temperatura câinelui: În[ ]i lassie setlemperature( e) lassie status() numele câinelui: Lassie temperatura câinelui: º După cum puteți vedea, apelul funcției setTemperature( ) a schimbat de fapt valoarea temperaturii interne a obiectului Ar trebui să fim mulțumiți de noi înșine, pentru că am învățat destul de multe despre obiecte, pe care mulți le consideră un subiect dificil, dar pentru noi nu s-a dovedit a fi o nucă atât de greu de spart! Acum știm suficient despre Python încât să ne putem construi propria noastră rețea neuronală Proiect de rețea neuronală în Python Acum putem începe să construim propria noastră rețea neuronală folosind limbajul Python despre care tocmai ați terminat de învățat Ne vom deplasa pas cu pas, lucrând prin fiecare pas și vom construi programul nostru Python bucată cu bucată Începeți mic și apoi construiți treptat este o abordare foarte înțeleaptă atunci când scrieți cod de computer, chiar și de complexitate moderată Având în vedere experiența pe care am acumulat-o până acum, pare destul de firesc să începem prin a construi scheletul unei clase de rețele neuronale Să nu pierdem timpul! scheletul codului Să descriem pe scurt ce ar trebui să fie o clasă de rețea neuronală Știm că trebuie să conțină cel puțin trei caracteristici: inițializare - setarea numărului de noduri de intrare, ascunse și de ieșire; antrenament - perfecţionarea coeficienţilor de greutate în procesul de prelucrare a exemplelor de instruire prevăzute pentru pregătirea în reţea; Sondaj - Obținerea valorilor semnalului de la nodurile de ieșire după furnizarea valorilor semnalului de intrare Este posibil să nu putem veni cu o definiție ideală a clasei în acest moment și va trebui să includem noi funcții mai târziu, dar să începem cu acest minim Codul nostru inițial ar putea arăta cam așa # clasa de definire a rețelei neuronale neuralNetwork: inițializează rețeaua neuronală def init (): trece antrenamentul rețelei neuronale deftrain(): trece sondaj de rețea neuronală interogare def (): trece Destul de bine pentru început De fapt, acesta este un schelet destul de fiabil, care, în timpul muncii noastre, va crește treptat în carne sub forma unui cod de lucru Inițializarea rețelei Să începem cu inițializarea Știm că trebuie să setăm numărul de noduri în straturile de intrare, ascunse și de ieșire Aceste date determină configurația și dimensiunea rețelei neuronale În loc să le codificăm în cod, vom seta valorile corespunzătoare ca parametri în timpul creării obiectului rețelei neuronale Datorită acestui fapt, va fi posibil să se creeze cu ușurință noi rețele neuronale de diferite dimensiuni Decizia noastră se bazează pe un aspect important Programatori buni, informaticieni și matematicieni, ori de câte ori este posibil, încearcă să scrie cod generalizat care nu depinde de anumite valori numerice Acesta este un obicei bun, deoarece ne obligă să ne gândim mai profund la soluțiile care extind aplicabilitatea programului După aceasta, vom putea folosi programele noastre într-o varietate de scenarii În acest caz, aceasta înseamnă că vom încerca să dezvoltăm un cod de rețea neuronală care să mențină cât mai multe opțiuni deschise și să folosească cât mai puține ipoteze, astfel încât să poată fi aplicat cu ușurință în diverse situații Ne dorim ca aceeași clasă să poată crea atât rețele neuronale mici, cât și foarte mari, necesitând doar dimensiunile rețelei dorite ca parametri În plus, nu trebuie să uităm de rata de învățare Acest parametru poate fi setat și la crearea unei noi rețele neuronale Vedeți cum ar putea arăta funcția init ( ) în acest caz inițializează rețeaua neuronală def init (seif, inputnodes, hiddennodes, outputnodes, learningrate): setați numărul de noduri din stratul de intrare, ascuns și de ieșire self inodes = inputnodes self hnodes = hiddennodes self onodes = outputnodes rata de învățare seif Ir = rata de învățare trece Să adăugăm acest cod la definiția clasei noastre de rețea neuronală și să încercăm să creăm un mic obiect de rețea cu trei noduri în fiecare strat și un factor de învățare de , numărul de noduri de intrare, ascunse și de ieșire input nodes = hidden nodes = output nodes = rata de învățare este de , rata de învățare = , # instanțiază rețeaua neuronală n = NeuralNetwork(noduri intrare,noduri ascunse,noduri ieșire,rata învățare) Desigur, acest cod vă permite să obțineți un obiect de rețea, dar un astfel de obiect nu va fi încă deosebit de util, deoarece nu conține nicio funcție care poate face o muncă utilă Cu toate acestea, nu este nimic în neregulă cu acest lucru, este o practică normală să începeți mic și să construiți treptat codul, găsind și remediați erorile pe parcurs Doar pentru a ne asigura că nu am omis nimic, mai jos este cum arată un notebook IPython cu definiția clasei rețelei neuronale și codul pentru a crea obiectul În [ ]: # definiția clasei rețelei neuronale cijzz neurxlNetworfc: inițializează rețeaua neuronală def (seif, inputnodes, hlddennodes, outputnodes, learningrate): » setați numărul de noduri din straturile de intrare, ascunse și de ieșire self inodes - inputnodes self hnodes ■ hiddennodes self onodes - outputnodes rata de învățare): setați numărul de noduri din stratul de intrare, ascuns și de ieșire self inodes = inputnodes self hnodes = hiddennodes self onodes = outputnodes Matrici de coeficienți de greutate a legăturilor wih și who Coeficienții de pondere a legăturilor dintre nodul i și nodul j stratul următor este notat ca w i j : va w wl w etc seif wih = numpy random normal( , , pow(seif hnodes, - , ), b (self hnodes, self inodes)) seif who = numpy random normal( , , pow(seif onodes, - , ), (self onodes, self hnodes)) rata de învățare seif Ir = rata de învățare folosind sigmoid ca functie de activare seif activation function = lambda x: scipy special expit(x) trece antrenamentul rețelei neuronale def train(self, inputs list, targets list): transformarea unei liste de valori de intrare într-o matrice bidimensională inputs = numpy array(inputs list, ndmin= ) T targets = numpy array(targets list, ndmin= ) T calculați semnalele de intrare pentru stratul ascuns hidden inputs = numpy dot(seif wih, inputs) calculați semnalele de ieșire pentru stratul ascuns hidden outputs = seif activation function(hidden inputs) calculați intrările pentru stratul de ieșire final inputs = numpy dot(seif who, hidden outputs) calculați semnalele de ieșire pentru nivelul de ieșire final outputs = seif activation function(final inputs) erori de strat de ieșire = (valoarea țintă - valoarea reală) output errors = targets - final outputs erorile de strat ascunse sunt erori output errors, distribuite proporţional cu coeficienţii de greutate ai obligaţiunilor și recombinat pe noduri ascunse hidden errors = numpy dot(seif who T, output errors) actualizați ponderile pentru legăturile dintre straturi ascunse și de ieșire self who += seif Ir * numpy dot((output errors * ^>final outputs * ( - final outputs)), ^numpy transpose(hidden outputs)) actualizați ponderile pentru legăturile dintre straturile de intrare și ascunse self wih += seif Ir * numpy dot((erori ascunse * ^>hidden outputs * ( - hidden outputs)), numpy transpose(intrari)) trece # sondajul rețelei neuronale def queryfself, inputs list): transforma lista valorilor de intrare într-o matrice bidimensională inputs = numpy array(inputs list, ndmin= ) T calculați semnalele de intrare pentru stratul ascuns hidden inputs = numpy dot(seif wih, inputs) calculați semnalele de ieșire pentru stratul ascuns hidden outputs = seif activation function(hidden inputs) calculați intrările pentru stratul de ieșire final inputs = numpy dot(seif who, hidden outputs) calculați semnalele de ieșire pentru nivelul de ieșire final outputs = seif activation function(final inputs) returnează final outputs Nu există prea mult cod aici, mai ales având în vedere că poate fi folosit pentru a crea, antrena și sonda o rețea neuronală cu straturi pentru aproape orice sarcină În continuare, vom aborda o problemă specifică: antrenarea unei rețele neuronale pentru a recunoaște numerele scrise de mână Set de cifre scrise de mână MNIST Recunoașterea textului scris de mână este o adevărată provocare pentru testarea capacităților inteligenței artificiale, deoarece această problemă este cu adevărat dificilă și neclară Nu este la fel de clar și bine definit ca înmulțirea unui set de numere cu altul Clasificarea corectă a conținutului imaginii de către un computer, denumită adesea recunoaștere a modelelor , a rezistat de zeci de ani atacurilor care vizează rezoluția acestuia Recent, s-au înregistrat progrese semnificative în acest domeniu, iar tehnologiile rețelelor neuronale au jucat un rol decisiv în descoperirea emergentă Dificultatea problemei poate fi judecată cel puțin după faptul că nici măcar noi, oamenii, uneori nu putem fi de acord între noi în privința tipului de imagine pe care o vedem În special, o scrisoare scrisă de mână ilizibilă poate servi și ca subiect de dispută Aruncă o privire la următorul număr scris de mână Ce vezi: sau ? O zece cincisprezece douăzeci O Există o colecție de imagini cu cifre scrise de mână, folosite de cercetătorii AI ca set popular pentru testarea ideilor și a algoritmilor Faptul că colecția este celebră și populară înseamnă că nu va fi dificil pentru nimeni să verifice cum arată cea mai recentă dintre ideile sale nebunești în comparație cu ideile altora (adică idei și algoritm diferite pe care le testăm folosind același set de testare) Acest set de testare este o bază de date de cifre scrise de mână numită „MNIST”, care este pusă la dispoziția publicului de către respectatul cercetător al rețelei neuronale Yann Lecun la http://yann lecun com/exdb/mnist/ Acolo veți găsi, de asemenea, informații despre succesul încercărilor anterioare și actuale de a recunoaște corect aceste caractere scrise de mână Ne vom referi la această listă în mod repetat pentru a vedea cât de competitive sunt propriile noastre idei față de cele dezvoltate de profesioniști! Formatul bazei de date MNIST nu este unul cu care este ușor de lucrat, dar, din fericire, alții au creat fișiere corespunzătoare într-un format mai simplu (vezi, de exemplu, http://pjreddie com/projects/mnist-in-csv/) Acestea sunt așa-numitele fișiere CSV, în care valorile individuale sunt text simplu, separate prin virgule Conținutul lor poate fi vizualizat cu ușurință cu orice editor de text, iar majoritatea foilor de calcul sau a programelor de analiză a datelor pot funcționa cu fișiere CSV Este un format destul de versatil Site-ul a furnizat următoarele două fișiere: set de antrenament ( http://www pjreddie com/media/files/mnist train csv ) ; set de testare ( http://www pjreddie com/media/files/mnist test csv ) Setul de antrenament conține de instanțe etichetate utilizate pentru antrenarea rețelei neuronale Cuvântul „ marcat” înseamnă că pentru fiecare caz, este indicat răspunsul corect corespunzător O suită de teste mai mică de de instanțe este utilizată pentru a testa corectitudinea ideilor sau a algoritmilor De asemenea, conține markerii corecti pentru a vedea dacă rețeaua noastră neuronală este capabilă să ofere răspunsul corect Utilizarea de seturi de date de antrenament și de testare care sunt independente unele de altele asigură că rețeaua neuronală nu a întâlnit anterior date de testare În caz contrar, s-ar putea înșela și pur și simplu memora datele de antrenament pentru a obține cele mai mari puncte, deși câștigate în mod fraudulos Ideea de a separa datele de instruire și de testare este comună în rândul specialiștilor în învățarea automată Să aruncăm o privire la aceste fișiere Mai jos este o parte din suita de teste MNIST încărcată într-un editor de text s, o o o o o o o o e o o o o o o e o v o o o o o v o o o o o e o o o o, o o o, o o o o o o o a, o o o o o, o o o o o o o o o o , o o o o o o o o o o o o o o , a , ,a , , ,a, ,a a e,a,a a e a b b , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,O, , , , , , , , , , , , O * ^ * ^ * * ^ ^ * * ^ *O'O'O*O*O*O*O*O*O' , I I , , , , O, ,O,O,O,O,O,O,O,O,O,O ,О,О,О,О,О, ,О,О,О, * , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ^ o'ol'o'o'o'o'o'o'b'o'o'o'e 'v'v'v'o'o'o'e'o^'v'o'o 'o'o'o'o'blpg zb'o'o'o'v'o'o^o' o 'o'b^vі'o'o'o'o'o'o'o' ѳ'o'o'ѳ'o'b'o'i , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , Wow! Se pare că ceva nu este în regulă aici Îmi amintește de scene din filmele anilor care conțin scene cu sisteme informatice piratate de hackeri De fapt, totul este bine Fereastra editorului de text afișează rânduri lungi de text care conțin numere separate prin virgulă Acest lucru este ușor de văzut Liniile de text sunt atât de lungi, deoarece fiecare linie se întinde pe mai multe linii pe ecran Foarte convenabil, editorul de text afișează numerele de linii reale în margini și vedem patru linii întregi și o parte dintr-o cincime Conținutul acestor înregistrări, de ex rânduri de text, ușor de înțeles Prima valoare este markerul, adică numărul real, cum ar fi „ ” sau „ ”, pe care trebuie să îl reprezinte copia scrisă de mână Acesta este răspunsul pe care rețeaua neuronală trebuie să învețe să-l obțină corect Valorile ulterioare, separate prin virgule, sunt valorile pixelilor cifrei scrise de mână Matricea de pixeli este de x , deci fiecare marcator este urmat de de pixeli Dacă ai o astfel de dorință, poți număra! Deci, prima intrare reprezintă numărul „ ”, așa cum indică prima valoare, în timp ce restul textului din acea linie este valorile pixelilor „ ” scris de mână cuiva A doua linie reprezintă numărul scris de mână „ ”, a treia linie reprezintă numărul „ ”, a patra linie reprezintă numărul „ ”, iar a cincea linie reprezintă numărul „ ” Puteți alege orice linie din fișierele de date MNIST, iar primul său număr vă va oferi un marcator pentru datele de imagine ulterioare Cu toate acestea, nu este atât de ușor să vedem cum o listă lungă de de valori formează o imagine a unui număr scris de mână „ ” Trebuie să trasăm aceste numere și să ne asigurăm că reprezintă într-adevăr culorile pixelilor numărului scris de mână Înainte de a ne aprofunda în detalii și de a începe să scriem codul, să încărcăm un mic subset al setului de date conținut în baza de date MNIST Fișierele de date MNIST sunt foarte mari, în timp ce lucrul cu seturi de date mici este mult mai convenabil, deoarece ne va permite să experimentăm, să dezvoltăm și să testăm codul nostru, ceea ce ar fi dificil în cazul calculelor lungi din cauza cantității mari de date care sunt prelucrate Când elaborăm algoritmul și suntem mulțumiți de codul creat, va fi posibil să revenim la setul complet de date Mai jos sunt link-uri către seturi MNIST mai mici, disponibile și în format CSV înregistrări din setul de date de testare MNIST: https://raw githubusercontent com/makeyourownneuralnetwork/ makeyourownneuralnetwork/master/mnist dataset/mnist test csv de înregistrări din setul de date de antrenament MNIST: https://raw githubusercontent com/makeyourownneuralnetwork/ makeyourownneuralnetwork/master/mnist dataset/mnist train csv Dacă browserul dvs afișează datele în loc să le descarce automat, puteți salva fișierul executând comanda de meniu File^Save as sau echivalentul acestuia Salvați fișierul într-un folder local la alegere Îmi stochez datele în folderul mnist dataset împreună cu notebook-urile mele IPython, așa cum se arată în captura de ecran de mai jos Salvarea notebook-urilor IPython și a fișierelor de date în locații alese aleatoriu este o mizerie iCIoud Огіѵе mnl«t tralp OO csv iunie , : KB Text simplu А Aplicații mnistjraln csv decembrie , : , MB Text simplu partea mni st data *et ipynb februarie , : de octeți Document П Desktop part neural network lpynb februarie , : KB Document ® Documente о Descărcări Dispozitive Q Disc la distanță Înainte de a putea face ceva cu aceste date, cum ar fi să le trasezi sau să antrenezi o rețea neuronală cu ele, trebuie să le faci disponibil pentru codul tău Python Deschiderea fișierelor și obținerea conținutului lor în Python nu este mare lucru Cel mai bine este să arăți cum se face acest lucru cu un exemplu concret Aruncă o privire la următorul cod data file = open("mnist dataset/mnist train csv", 'r') data list = data fil" readlines() data fila închide() Există doar trei linii de cod aici Să discutăm fiecare dintre ele separat Prima linie deschide fișierul cu funcția eagle() Puteți vedea că primește un nume de fișier ca prim parametru De fapt, acesta nu este doar numele fișierului mnist train csv, ci întreaga cale către acesta, inclusiv directorul (folderul) în care se află Al doilea parametru este opțional și îi spune lui Python cum vrem să lucrăm cu fișierul Litera „r” înseamnă că dorim să deschidem fișierul doar pentru citire, nu pentru scriere Astfel, prevenim orice modificare sau ștergere neintenționată a fișierului Dacă încercăm să scriem sau să modificăm acest fișier, Python nu ne va lăsa și va arunca o eroare Și ce este această variabilă data file? Funcția eagle() creează un mâner (pointer) care joacă rolul unui link către fișierul de deschis și îl atribuim variabilei date f ie Când un fișier este deschis, orice acțiuni ulterioare cu acesta, cum ar fi citirea, sunt efectuate prin acest ghid Următoarea linie este mai ușoară Folosim funcția readlines() asociată cu descriptorul de fișier datafiie pentru a citi toate liniile conținutului fișierului în variabila data list Această variabilă conține o listă, fiecare element fiind un șir reprezentând o linie din fișier Acest lucru este foarte util, deoarece putem naviga la orice linie din fișier, așa cum putem naviga la anumite intrări dintr-o listă Deci data list[O] este prima intrare, data list[ ] este a zecea și așa mai departe Apropo, este posibil ca unii oameni să te descurajeze să folosești funcția readlines() , deoarece citește întregul fișier în memorie Probabil ți-au spus să citești câte un rând, să faci toate procesările de care ai nevoie pe acea linie și apoi să treci la următorul Nu poți spune că greșesc Într-adevăr, este mult mai eficient să lucrezi cu fiecare linie pe rând, decât să citești întregul fișier în memorie Cu toate acestea, fișierele noastre sunt mici și utilizarea funcției readlines() simplifică foarte mult codul, iar pentru noi, simplitatea și claritatea sunt foarte importante pe măsură ce învățăm Python Ultima linie închide fișierul Este considerată o bună practică închiderea fișierelor și a altor resurse după ce acestea au fost utilizate Lăsarea lor deschisă poate duce la probleme Care este problema? Unele programe pot refuza să scrie într-un fișier deschis în altă parte, dacă acest lucru ar cauza inconsecvențe Altfel, nu ar semăna cu situația în care două persoane încearcă să scrie texte diferite pe aceeași foaie de hârtie în același timp Uneori, computerul poate bloca un fișier pentru a evita astfel de conflicte Dacă nu păstrați ordinea după ce nu mai aveți nevoie să utilizați un fișier, puteți ajunge cu o mulțime de fișiere blocate Cel puțin, prin închiderea fișierului, veți oferi computerului dumneavoastră posibilitatea de a elibera memoria ocupată de datele care nu mai sunt necesare Creați un nou bloc de note gol, rulați codul de mai jos și vedeți ce se întâmplă când încercați să afișați elementele din listă W [ ]: data file - deschide( data llst - dita file readlin€s() data file,close() M csv”, >•) În (SJ: l?n(data llst) În[ ]: lista date ,ё, * * *ё* *ё* *ё,ё* * , *ё,ё, ,e,ё,ё* ,ё,ё*ё, , ѳ*ѳ*ѳ,ѳ*e,ѳ, , , * * *ѳ, * , ѳ*ѳ*ѳ,ѳ,ѳ,ѳ,ѳ, ,ѳ*ѳ,ѳ* ѳ*е,ѳ*ѳ,е*ѳ*ѳ*ѳ* * *ѳ*ѳ* *ѳ,е* * ,ѳ*ѳ,ѳ* *ѳ, , , * ѳ* ,ѳ, * , * , , , , , , , , , * * , , * , Ѳ,e, * , * * Ѳ* , Ѳ* * *Ѳ, * , * * * L > , * , , , , , , * , , , , , , , * * * * * , , * , , , , , , * , , * * * * , ,Ѳ,Ѳ,Ѳ,Ѳ* ,Ѳ,Ѳ ,Ѳ* * * * , * , , , , , , , , , , , , , , , , , , , , , , , , , * , , , * , , , , , , , , , , , , , , , , , * , , , , , , , , , , , * , , , , , , , , , , , , , , , , * * , , * ,Ѳ> , , , , , , , , , , , , , * , * , , * , , , , , , , , , * * * , , , , , * , , , , * , , , , , , , , , , , , , , , , , , , , , * , , , * , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , * * , , * * , , , , , , , , , , , * * , * , , , , , * * , , * , * * , , * , , , * , * , , , * * * , , , * * , * * * , * , , , , * , , * , * , , * , , , , * * , , , , , * * , * * , * * * * * * , , , * , * , * * , , , , , , , , , , , , , , , * , , , * , * , , * , * * , , , , , , * , , , , , * , * , , , , , * * * , , * , * , , , , , , , , , , , , , , , , , * * * * , * , , , , , , , , , , , , , , , , , * , *Ѳ*Ѳ, ,Ѳ,Ѳ* , , , , * , * , * * , , , * , , , , , , * * , * * , , , * , , , * , , , * , , , , , , , * * , , * * , , * * * * , , , * , , , , , * , , , , , , * * , , * * * , * * * , *Ѳ* * , , , , * , * , * * * , * * ,O, * * , , , * , , * * * , * , * , *Ѳ*Ѳ,Ѳ,Ѳ* , , , ,Ѳ*Ѳ, , * , , , , * * , , * ,Ѳ, , * , * , , * , * * * *Ѳ,Ѳ* , *Ѳ,Ѳ*Ѳ,Ѳ*Ѳ, ,Ѳ*Ѳ,Ѳ,Ѳ* , * \p' Puteți vedea că lungimea listei este de Funcția Python len() raportează dimensiunea listei De asemenea, puteți vedea conținutul primei intrări, data list[O] Primul număr, , este marcatorul, în timp ce celelalte de numere sunt codurile de culoare ale pixelilor care alcătuiesc imaginea Dacă te uiți cu atenție, vei observa că valorile lor sunt în intervalul de la la Puteți să vă uitați la alte intrări pentru a vedea dacă acest lucru este valabil și pentru ei Veți vedea că acesta este cazul: valorile codurilor tuturor culorilor se încadrează în intervalul de numere de la la Un exemplu a fost dat mai devreme pentru a afișa grafic o matrice dreptunghiulară de numere folosind funcția imshow() Vrem să facem același lucru în acest caz, dar pentru aceasta trebuie să convertim lista de numere separate prin virgule într-o matrice adecvată Acest lucru se poate face conform următoarei proceduri: • împărțiți un șir de text lung de valori separate prin virgulă în valori separate folosind un caracter virgulă ca separator; ignorați prima valoare, care este un marker, extrageți restul de * = de valori și convertiți-le într-o matrice de de rânduri și de coloane; matrice de afișare! Din nou, este mai ușor să afișați codul Python simplu corespunzător și apoi să intrați în detaliu despre ceea ce se întâmplă în el În primul rând, nu trebuie să uităm de necesitatea de a importa biblioteci de extensii Python pentru a lucra cu matrice și grafică import numpy import matplotlib pyplot fcmatplotlib inline Acum aruncați o privire la următoarele trei linii de cod Variabilele sunt colorate în culori diferite, astfel încât să fie clar unde și ce date sunt utilizate all values = data list [ ] split(',*) =numpy asfarray(all values[l:]) reshape(( , )) matplotlib pyplot imshow( , cmap='Greys', ^interpolation='Niciuna') În prima linie, prima intrare lungă data list[ ] pe care tocmai am tipărit-o este împărțită în valori individuale, folosind o virgulă ca delimitator Acest lucru se face folosind funcția split() , al cărei parametru specifică caracterul delimitator Rezultatul este plasat în variabila all values Puteți imprima aceste valori pe ecran și puteți verifica dacă această variabilă conține de fapt valorile dorite ca o listă lungă Python Următoarea linie de cod pare puțin mai complexă, deoarece are mai multe lucruri care se întâmplă simultan Să începem de la mijloc Scrierea listei ca all values[ : ] indică faptul că toate elementele listei sunt luate cu excepția primului Procedând astfel, ignorăm prima valoare, care acționează ca un marker, și luăm doar cele de elemente rămase, numpy asfarray () este o funcție de bibliotecă numpy care convertește șirurile de text în numere reale și creează o matrice a acestor numere Stai, de ce sunt șirurile de text convertite în numere? Dacă fișierul a fost citit ca text, atunci fiecare rând sau intrare este în continuare text Extragerea elementelor individuale separate prin virgulă din ele generează și elemente de text De exemplu, acest text ar putea fi cuvintele „măr”, „orangel ” sau „ ” Șirul de text „ ” nu este același cu numărul Acesta este motivul pentru care trebuie să convertim șirurile de text în numere, chiar dacă acele șiruri arată ca numere Ultima bucată a instrucțiunii, reshape (( , )) asigură că lista va fi formată ca o matrice pătrată de x Matricea rezultată de aceeași dimensiune se numește imagine array Wow! Atât de multe lucruri interesante într-o singură linie de cod! A treia linie afișează pur și simplu imagine array folosind funcția imshow () , similar cu ceea ce ați văzut până acum De data aceasta am ales o paletă de culori în tonuri de gri cu opțiunea cmap='Greys' pentru o mai bună lizibilitate a caracterelor scrise de mână Rezultatul codului este prezentat mai jos În [ ]: all values - data list [Ѳ] split( ) image array - numpy,asfarray(all value$[l:]) reshape(( , )) matplotlib pyplox imshow image amay > old- , interpolare - Vedeți o reprezentare grafică a numărului „ ”, care este ceea ce indica marcatorul Dacă selectăm următoarea intrare, data list[l] cu markerul , obținem imaginea prezentată mai jos În [ ]; all values - data list [ ] split( ) image array - numpy asfarray(all values[l: ]) reshape(( , )) matplotlib pyplot imshow image array J old- , interpolation- Privind această imagine, puteți spune cu încredere că acest număr scris de mână corespunde într-adevăr cu numărul Pregătirea datelor de antrenament MNIST Acum că știți deja cum să obțineți date din fișierele MNIST și să extrageți înregistrările dorite din ele, putem folosi acest lucru pentru a vizualiza datele Dorim să folosim aceste date pentru a ne antrena rețeaua neuronală, dar mai întâi trebuie să ne gândim cum să o pregătim înainte de a le furniza rețelei Ați văzut deja că rețelele neuronale funcționează mai bine atunci când atât intrările, cât și ieșirile sunt configurate pentru a rămâne în intervalul optim pentru funcțiile de activare a nodurilor rețelei neuronale Primul lucru pe care trebuie să-l facem este să convertim valorile codului de culoare din intervalul mai mare de - într-un interval mult mai mic de valori de la la Am ales în mod deliberat , ca limită inferioară a intervalului pentru a evita problemele menționate anterior cu intrările nule, deoarece acestea pot bloca în mod artificial actualizarea ponderilor Nu trebuie să alegem , ca limită superioară a intervalului acceptabil, deoarece nu trebuie să evităm , pentru semnalele de intrare Numai semnalele de ieșire nu pot depăși , Împărțirea valorilor de intrare inițiale, care variază de la - , la va avea ca rezultat un interval de - , Înmulțirea ulterioară a acestor valori cu un factor de , le va aduce la un interval de , - , Apoi, le creștem cu , pentru a le încadra în intervalul dorit de , - , Toate aceste acțiuni sunt implementate de următorul cod Python scaled input = (numpy asfarray(all values[ :]) / * ) + prinț(scaled input) Datele rezultate confirmă că acestea aparțin într-adevăr intervalului de valori de la , la , Ip [L ]: # aruncați valorile de intrare în intervalul v, - și v scaled input - (numpy,asfarray(ell valu s[l:]) / , ♦ numpy transpose(hidden outputs)) actualizați ponderile pentru legăturile dintre straturile de intrare și ascunse self wih += seif Ir * numpy dot((hidden errors * ^>hidden outputs * ( - hidden outputs)), numpy transpose(inputs)) trece # sondajul rețelei neuronale def queryfself, inputs list): transforma lista valorilor de intrare într-o matrice bidimensională inputs = numpy array(inputs list, ndmin= ) T calculați semnalele de intrare pentru stratul ascuns hidden inputs = numpy dot(seif wih, inputs) calculați semnalele de ieșire pentru stratul ascuns hidden outputs = seif activation function(hidden inputs) calculați intrările pentru stratul de ieșire final inputs = numpy dot(seif who, hidden outputs) calculați semnalele de ieșire pentru stratul de ieșire final outputs = seif activation function(final inputs) returnează final outputs numărul de noduri de intrare, ascunse și de ieșire input nodes = hidden nodes = output nodes = rata de învățare este de , rata de învățare = , instanția rețelei neuronale n = NeuralNetwork(noduri intrare, noduri ascunse, noduri ieșire, rata de învățare) încărcați setul de date de testare al fișierului CSV al setului MNIST în lista training data file = open("mnist dataset/mnist train csv", 'r') training data list = training data file readlines () training data file close() antrenamentul rețelei neuronale repetați peste toate înregistrările din setul de date de antrenament pentru înregistrarea în lista date formare: obțineți o listă de valori folosind virgulă ( ,') ca separatori all values = record split(',') scalare și deplasare a valorilor de intrare intrări = (numpy asfarray(all values[ :]) / , * , ) + , creați valori de ieșire țintă (toate egale cu , , cu excepția valoarea dorită a markerului de , ) targets = numpy zeros(output nodes) + , all values[ ] - valoarea marcatorului țintă pentru această intrare targets[int(all values[ ])] = , n train(inputs, targets) trece La începutul acestui cod, importăm biblioteca grafică , adăugăm cod pentru a seta dimensiunile straturilor de intrare, ascunse și de ieșire, citim în setul de date de antrenament mic MNIST și apoi antrenăm rețeaua neuronală folosind aceste înregistrări De ce am ales de noduri de intrare? Reamintim că acest număr este egal cu x , care reprezintă numărul de pixeli care alcătuiesc imaginea cu cifre scrise de mână Selecția a de noduri ascunse nu are aceeași justificare științifică riguroasă Nu am ales ca acest număr să fie mai mare de , din motivul că rețeaua neuronală ar trebui să găsească caracteristici sau modele în valorile de intrare care pot fi exprimate într-o formă mai scurtă decât valorile în sine Prin urmare, alegând un număr de noduri mai mic decât numărul de valori de intrare, forțăm rețeaua să încerce să găsească caracteristicile cheie prin generalizarea informațiilor În același timp, dacă numărul de noduri ascunse este ales prea mic, capacitatea rețelei de a detecta suficiente caracteristici sau modele într-o imagine va fi limitată Astfel, am priva rețeaua de capacitatea de a-și face propriile judecăți cu privire la datele MNIST Având în vedere că stratul de ieșire trebuie să ofere o ieșire de markeri și, prin urmare, trebuie să aibă zece noduri, alegerea unei valori intermediare de pentru numărul de noduri de strat ascunse pare destul de rezonabilă În acest sens, trebuie făcută o notă importantă: nu există o metodă generală ideală pentru alegerea numărului de noduri ascunse De fapt, nu există o metodă ideală pentru a alege numărul de straturi ascunse În prezent, cea mai bună abordare este să experimentați până când obțineți o configurație de rețea optimă pentru problema pe care încercați să o rezolvați Testarea rețelelor neuronale Odată ce am antrenat rețeaua pe cel puțin un mic subset de de înregistrări, trebuie să testăm modul în care funcționează și o vom face folosind un set de date de testare În primul rând, trebuie să obțineți înregistrări de testare Codul corespunzător este foarte asemănător cu cel pe care l-am folosit pentru a obține datele de antrenament # încărcați setul de date de testare al fișierului CSV MNIST în lista test data file = open("mnist dataset/mnist test csv”, 'r') test data list = test data file readlines() test data file close() Vom despacheta aceste date în același mod ca și cele anterioare, deoarece au o structură similară Înainte de a crea o buclă pentru a repeta peste toate înregistrările de test, să vedem ce se întâmplă dacă executăm manual un singur test Mai jos sunt rezultatele unui sondaj al unei rețele neuronale deja antrenate, efectuat folosind prima înregistrare a setului de date de testare În [ ]: Încarc în lista setului de date de testare fișierul setului de date CSV MNIST rest data file - open( , ) test data list • test data file readlin's() rest data file,close() În [ ]: # obțineți prima înregistrare de test all values - test data list(O],split( ) # output marker orint(all values[ ]) În [ ] lmage array " numpy asfarray(all values[ :]) reshape(( , )) matplotlib pyplot imshow(lmage array, old" , interpolation" ) cmatplotlib image Axeslmage la x c e > În ( ]: n query((numpy asfarray(toate valorile[l:]) / ,Ѳ • , ) + , ) matrice([[ § ], ( , ], [ , ], ( , ], ( , ), [ Ѳ ], [ , ], ( , ], [ ]]) După cum puteți vedea, rețeaua a definit simbolul „ ” ca marker al primei înregistrări a setului de testare Acesta este răspunsul la care ne așteptam când i-am intervievat Afișarea grafică a valorilor pixelilor confirmă că cifra scrisă de mână este într-adevăr numărul „ ” Ca rezultat al sondajului rețelei antrenate, obținem o listă de numere care sunt valorile de ieșire ale fiecăruia dintre nodurile de ieșire Se observă imediat că una dintre valorile de ieșire este mult mai mare decât celelalte, iar această valoare corespunde markerului „ ” Acesta este al optulea element al listei, deoarece primul element corespunde marcatorului „O” Totul a funcționat pentru noi! Acest moment merită să fie savurat și merită din plin tot efortul pe care l-am depus până acum! Ne-am antrenat rețeaua neuronală și ne-am asigurat că este capabilă să determine numărul furnizat sub forma unei imagini Amintiți-vă că rețeaua nu a mai întâlnit această imagine înainte , deoarece nu făcea parte din setul de date de antrenament În consecință, rețeaua neuronală a fost capabilă să clasifice corect un simbol digital necunoscut Acesta este cu adevărat un rezultat impresionant! Cu doar câteva linii de cod Python, am creat o rețea neuronală care poate face ceea ce mulți oameni ar considera inteligență artificială: recunoaște imagini cu numere scrise de o mână umană Acest rezultat este și mai impresionant atunci când considerați că o fracțiune neglijabilă din setul complet de date de antrenament a fost folosită pentru a antrena rețeaua Amintiți-vă că acest set include de înregistrări și am folosit doar dintre ele Chiar am avut îndoieli că am putea face orice! continuăm așa și să scriem niște coduri pentru a verifica cât de bine se descurcă rețeaua neuronală cu restul setului de date și să calculăm rezultatele corecte, astfel încât să putem evalua ulterior rodnicia ideilor noastre viitoare pentru a îmbunătăți capacitatea rețelei de a învăța, ca precum și să comparăm rezultatele noastre cu rezultatele obținute de alți oameni Verificați mai întâi codul de mai jos și apoi îl vom discuta testarea rețelelor neuronale tabelul de performanță al rețelei, tabel de punctaj gol inițial = [] repetați peste toate înregistrările din setul de date de testare pentru înregistrarea în lista date test: obțineți o listă de valori dintr-o intrare folosind caractere virgula (•,') ca separatori all values = record split (',') răspunsul corect este prima valoare corect label = int (all values[ ]) prinț(correct label, "true marker") scalare și deplasare a valorilor de intrare intrări = (numpy asfarray(all values[ :]) / , * , ) + , sondaj de rețea ieșiri = n interogare(intrari) indicele celei mai mari valori este valoarea simbolului labei = numpy argmax(outputs) prinț(labei, "network response") adăugați scorul de răspuns al rețelei la sfârșitul listei if (labei == corect label): în cazul unui răspuns corect al rețelei, atașați pentru a lista valoarea anexează cardul de scor ( ) altceva: în cazul unui răspuns incorect al rețelei, atașați pentru a lista valoarea anexează tabloul de bord ( ) trece trece Înainte de a intra în bucla care procesează toate înregistrările setului de date de testare, creăm o listă goală de scorecard care va servi drept tabel de punctaj al performanței rețelei, actualizată după procesarea fiecărei înregistrări În buclă, facem ceea ce am făcut înainte: extrageți valorile din intrarea de text, în care sunt separate prin virgule Prima valoare, care indică răspunsul corect, este stocată într-o variabilă separată Restul valorilor sunt scalate astfel încât să poată fi folosite ca intrare pentru a trimite o interogare către rețeaua neuronală Răspunsul rețelei neuronale este stocat în variabila ieșiri Ceea ce urmează este o bucată de cod destul de interesantă Știm că cea mai mare valoare a nodurilor de ieșire este considerată de rețea drept răspunsul corect Indicele acestui nod, i e poziţia sa corespunde markerului Această expresie înseamnă pur și simplu că primul element corespunde markerului „ ”, al cincilea markerului „ ” și așa mai departe Din fericire, există o funcție de bibliotecă numpy la îndemână care găsește valoarea maximă dintre elementele unui tablou și raportează indexul acesteia Aceasta este o funcție numpy argmax() Pentru mai multe informații despre acesta, puteți vizita pagina web la următoarea adresă: https://docs scipy org/doc/numpy- /reference/generated/numpy argmax html Valoarea returnată de de către această funcție înseamnă că rețeaua consideră că „ ” este răspunsul corect și așa mai departe În ultimul fragment de cod, jetonul primit este comparat cu simbolul corect cunoscut Dacă ambii marcatori sunt aceiași, „ ” este înregistrat, în caz contrar, „ ” De asemenea, am inclus o comandă prinț() utilă în unele locuri în cod, astfel încât să putem urmări singuri valorile corecte și previzibile Mai jos este rezultatul acestui cod, împreună cu rezultatul din jurnalul nostru de lucru marker adevărat răspuns la rețea marker adevărat Despre răspunsul rețelei marker adevărat răspuns în rețea marker adevărat răspuns la rețea marker adevărat răspuns la rețea marker adevărat răspuns în rețea marker adevărat răspunsul rețelei marker adevărat răspunsul rețelei marker adevărat răspuns în rețea marker adevărat răspuns la rețea Іп [ ]: prinț, scorecard [ , , , , , , , , , q] De data aceasta, nu totul este bine la noi! Puteți vedea că există mai multe nepotriviri Ultimul rând de rezultate afișat arată că din zece înregistrări de testare au fost recunoscute corect Astfel, proporția rezultatelor corecte a fost de % De fapt, nu este chiar atât de rău, având în vedere dimensiunea mică a setului de antrenament pe care l-am folosit Să completăm codul cu un fragment care va afișa procentul relativ de răspunsuri corecte sub formă de fracție calculați indicatorul de performanță în formular procent de răspunsuri corecte scorecard array = numpy asarray(scorecard) prinț ("eficiență = ", scorecard array sum() / scorecard array size) Această proporție este calculată ca numărul tuturor intrărilor din jurnalul care conține „ ” împărțit la numărul total de intrări (dimensiunea jurnalului) Iată care este rezultatul il [ ]: print(scorecard) [ , , , , , , Ѳ, Ѳ, Ѳ] Іl [ ]: # calculați indicatorul de eficiență în formular # procent de răspunsuri corecte scorecard array - numpy,asarray(scorecard) □rlnt , scorecard array,suw() / scorecard array size randament ■ , După cum era de așteptat, am obținut un scor de eficiență a rețelei de , sau % Antrenarea și testarea unei rețele neuronale folosind o bază de date completă În continuare, vom adăuga un cod nou la programul nostru principal pe care l-am dezvoltat pentru a testa performanța rețelei Acest lucru va necesita ca numele fișierelor să fie schimbate, deoarece acestea ar trebui să indice acum setul complet de date de antrenament de de înregistrări și setul de date de testare de de înregistrări Am salvat anterior aceste seturi în fișierele denumite mnist dataset/mnist train csv și mnist dataset/mnist test csv Avem o treabă serioasă în față! Rețineți că blocnotesul cu acest cod poate fi obținut de pe site-ul GitHub la următoarea adresă: https://github com/makeyourownneuralnetwork/makeyourownneuralnetwork/ blob/master/part neural network mnist data ipynb De asemenea, puteți vedea cum acest cod a fost îmbunătățit treptat utilizând următorul link: https://github com/makeyourownneuralnetwork/makeyourownneuralnetwork/ commits/master/part neural network mnist data ipynb Conform rezultatelor antrenării rețelei noastre neuronale simple cu trei straturi utilizând un set complet de de exemple și apoi testând-o pe de înregistrări, scorul general al eficienței rețelei este de , Asta este foarte bine Precizia recunoașterii a fost de aproape %! Ip [ ]: # se calculează indicatorul de eficiență în formular # procent de răspunsuri corecte scorecard array "numpy asarray(scorecard) prinț z " ", scorecard array sufli() / scorecard array slze eficienta - Ѳ Această cifră de aproape % se compară cu rezultate similare de referință găsite la http://yann lecun com/exdb/mnist/ Veți vedea că în unele cazuri rezultatele noastre sunt chiar mai bune decât cele de referință și sunt aproape comparabile cu rezultatele date pe site-ul specificat pentru cea mai simplă rețea neuronală, a cărei eficiență a fost de , % Nu este deloc așa de rău Ar trebui să fim încântați că prima noastră încercare s-a dovedit a fi eficientă la nivelul rețelei neuronale a cercetătorilor profesioniști Apropo, nu ar trebui să fii surprins că, chiar și în cazul computerelor moderne de acasă de mare viteză, procesează toate cele de mii de exemple de antrenament, pentru fiecare dintre care este necesar să se calculeze propagarea semnalelor de la de noduri de intrare prin o sută nodurile ascunse în direcția înainte, precum și propagarea înapoi a erorilor și actualizarea scalelor necesită o perioadă semnificativă de timp Pe laptopul meu, parcurgerea întregului ciclu de antrenament a durat aproximativ două minute Pentru computerul dvs , timpul de calcul poate fi diferit Îmbunătățirea rezultatelor: ajustarea factorului de învățare Atingerea unei rate de eficiență de % atunci când testați setul de date MNIST cu rețeaua noastră neuronală, construită din cele mai simple idei și folosind cod Python simplu, nu este deloc rea, iar dorința dvs de a vă opri acolo ar putea fi considerată destul de justificată Cu toate acestea, vom încerca să îmbunătățim codul dezvoltat până acum aducându-i unele îmbunătățiri În primul rând, putem încerca să reglam rata de învățare Înainte de asta, l-am setat la , fără a testa măcar alte valori Să dublăm această valoare la o valoare de , și să vedem cum afectează aceasta capacitatea rețelei neuronale de a învăța Rularea codului cu această rată de învățare produce un scor de eficiență de , Acest rezultat este mai rău decât înainte Aparent, o creștere a coeficientului de învățare rupe monotonitatea procesului de minimizare a erorilor prin metoda coborârii gradientului și este însoțită de sărituri peste minim Să repetăm calculul setând factorul de învățare la , De data aceasta, scorul de performanță s-a îmbunătățit la , , ceea ce este aproape același cu rezultatul benchmark-ului menționat anterior, care a fost realizat folosind o mie de noduri ascunse Dar rezultatul nostru a fost obținut folosind un număr mult mai mic de noduri! Ce se întâmplă dacă mergem și mai departe și reducem rata de învățare la , ? Se pare că acest lucru duce și la o scădere a eficienței rețelei la , Aparent, valori prea mici ale coeficientului de învățare reduc eficiența Acest lucru pare logic, deoarece pașii mici încetinesc viteza de coborâre a gradientului Rezultatele descrise sunt prezentate mai jos sub forma unui grafic Aceasta nu este o abordare foarte științifică, deoarece ar trebui să facem astfel de experimente de multe ori pentru a elimina factorul aleatoriu și influența alegerii proaste a rutelor de coborâre în gradient, dar în general ne permite să ilustrăm ideea generală că există o anumită valoare optimă pentru coeficientul de învățare Vizualizarea grafică ne spune că valoarea optimă poate fi în intervalul de la , la , , așa că vom testa valoarea de , Indicatorul de eficiență va fi egal cu , Vedem că acest rezultat este puțin mai bun decât ceea ce am avut cu valorile coeficientului de învățare de , sau , Ar trebui să luați ideea de a crea diagrame și în alte scenarii, deoarece diagramele sunt mai bune pentru a înțelege tendințele generale decât listele lungi de numere Deci, ne vom stabili pe o valoare a factorului de învățare de , , care s-a dovedit a fi optimă pentru setul de date MNIST și rețeaua noastră neuronală Apropo, dacă executați singur acest cod, estimările dvs vor fi ușor diferite de cele prezentate aici, deoarece procesul în ansamblu conține elemente ale aleatoriei Alegerea dvs aleatorie a greutăților inițiale nu va fi aceeași cu a mea și, prin urmare, traseul de coborâre în gradient pentru codul dvs va fi diferit Îmbunătățirea rezultatelor: repetarea repetată a ciclurilor de antrenament Următoarea noastră îmbunătățire va fi să repetă ciclurile de antrenament de mai multe ori cu același set de date În legătură cu un ciclu de pregătire, termenul de epocă este uneori folosit Prin urmare, o sesiune de antrenament de zece epoci înseamnă rularea întregului set de date de antrenament de zece ori Și de ce ar trebui să o facem? Mai ales dacă computerului îi ia , sau chiar de minute pentru a o face? Motivul este că, făcând acest lucru, oferim mai multe rute de coborâre în pante care optimizează greutățile Să vedem ce ne vor oferi două epoci de pregătire Pentru a face acest lucru, trebuie să schimbăm puțin codul, oferind o buclă suplimentară pentru executarea codului de antrenament În codul de mai jos, bucla exterioară este evidențiată în culoare pentru a o face mai vizibilă antrenamentul rețelei neuronale variabila epochs specifică de câte ori antrenamentul setul de date este folosit pentru a antrena epocile de rețea = pentru e în interval (epoci): # treceți în buclă prin toate înregistrările din setul de date de antrenament pentru înregistrarea în training data list: obțineți o listă de valori dintr-o intrare folosind caractere virgula ( , ') ca separatori all values = record split(',') scalare și deplasare a valorilor de intrare intrări = (numpy asfarray(all values[ :]) / , * , ) + , creați valori țintă de ieșire (toate egale cu , , dincolo de cu excepția valorii markerului dorit de , ) targets = numpy zeros(output nodes) + , all values[ ] - valoarea markerului țintă pentru această intrare targets[int(all values[ ])] = , n train(intrari, tinte) trece trece Scorul de eficiență rezultat pentru două epoci este , , ceea ce este puțin mai bun decât cel pentru o epocă Așa cum am configurat rata de învățare, să rulăm un experiment folosind un număr diferit de epoci și să trasăm indicatorul de performanță în raport cu acest factor Intuiția ne spune că cu cât este mai mult antrenament, cu atât eficiența este mai mare Dar se poate presupune că prea multe antrenamente sunt pline de degradare a performanței din cauza așa-numitei recalificări a rețelei pe datele de antrenament, ceea ce reduce eficiența atunci când se lucrează cu date nefamiliare Factorul de supraadaptare este de temut în orice tip de învățare automată, nu doar în rețelele neuronale În acest caz, avem următoarele rezultate Acum eficiența maximă este de , , sau , %, la șapte epoci După cum puteți vedea, rezultatele nu au fost atât de previzibile pe cât se aștepta Numărul optim de epoci este sau Pentru valori mari, eficiența scade, ceea ce poate fi rezultatul supraajustării Eșecul la epoci se datorează cel mai probabil unor parametri ciclului prost care au determinat coborârea gradientului la un minim fals De fapt, ne-am aștepta la mai multe variații ale rezultatelor, deoarece nu am efectuat mai multe experimente pentru fiecare punct de date pentru a reduce variația datorată factorilor aleatori De aceea am lăsat acest punct ciudat corespunzător celor șase epoci, pentru a vă aminti că, în esență, antrenamentul unei rețele neuronale este un proces aleatoriu care poate funcționa uneori nu foarte bine, iar alteori foarte prost O altă posibilă explicație este că rata de învățare a fost prea mare pentru mai multe epoci Să repetăm experimentul scăzând factorul de învățare de la , la , și să vedem ce se întâmplă În graficul următor, noile valori de performanță la o rată de învățare de , sunt prezentate împreună cu rezultatele anterioare pentru a le face mai ușor de comparat După cum puteți vedea, scăderea ratei de învățare a condus într-adevăr la o îmbunătățire a eficienței pentru un număr mare de epoci O valoare de vârf de , corespunde unei probabilități de eroare de %, care este comparabilă cu rezultatele benchmarkului listate pe site-ul lui Yann Lecun la http://yann lecun com/exdb/mnist/ Intuiția noastră ne spune că, dacă intenționăm să folosim coborârea gradientului pentru mult mai multe epoci, atunci scăderea ratei de învățare (pași mai scurti) va duce, în general, la rute mai bune de minimizare a erorilor Probabil epoci este numărul optim pentru testarea rețelei noastre neuronale cu setul de date MNIST Din nou, aș dori să vă atrag atenția asupra faptului că am făcut acest lucru într-un mod destul de neștiințific Ar fi corect să se efectueze experimentul de mai multe ori pentru fiecare combinație de valori ale coeficientului de învățare și numărul de epoci pentru a minimiza influența factorului aleatoriu inerent metodei de coborâre a gradientului Modificarea configurației rețelei Unul dintre factorii a căror influență nu am explorat-o încă, deși poate ar fi trebuit să o facem mai devreme, este configurația rețelei neuronale Ar trebui să încercați să schimbați numărul de noduri din stratul mijlociu ascuns Cu mult timp în urmă l-am setat la Înainte de a începe să experimentăm cu diferite numere de noduri ascunse, să ne gândim la ce s-ar putea întâmpla Stratul ascuns este tocmai stratul în care are loc învățarea Amintiți-vă că nodurile stratului de intrare primesc semnale de intrare, iar nodurile stratului de ieșire dau răspunsul rețelei De fapt, stratul (sau straturile) ascunse trebuie să învețe rețeaua să transforme semnalele de intrare într-un răspuns Aici are loc învățarea De fapt, toate antrenamentele se bazează pe valorile greutății înainte și după stratul ascuns, dar știi la ce mă refer De acord că dacă am avea prea puține noduri ascunse, să zicem trei, atunci nu am avea nicio șansă să învățăm rețeaua nimic, să o învățăm să transforme toate semnalele de intrare în semnale de ieșire corecte Este ca și cum ai încerca să transporti zece persoane într-o mașină de cinci persoane Pur și simplu nu puteai înghesui toate intrările în acele noduri Acest tip de limitare se numește capacitate de învățare Este imposibil să predați mai mult decât permite capacitatea de învățare, dar este posibil să creșteți capacitatea de învățare prin modificarea configurației rețelei Dacă am avea mii de noduri ascunse? Ei bine, da, în acest caz, capacitatea de învățare ar fi destul de suficientă, dar am putea întâmpina dificultăți în pregătirea rețelei, deoarece numărul de trasee de învățare ar fi prohibitiv Este posibil să fie nevoie de mii de epoci pentru a antrena o astfel de rețea Să facem câteva experimente și să vedem ce se întâmplă După cum puteți vedea, cu un număr mic de noduri, rezultatele sunt mai rele decât cu un număr mare Acest lucru este în conformitate cu așteptările noastre Cu toate acestea, chiar și pentru doar cinci noduri ascunse, scorul de eficiență a fost , Acest lucru este surprinzător, deoarece cu un număr atât de mic de noduri în care rețeaua este de fapt antrenată , încă oferă răspunsuri corecte în proporție de % Amintiți-vă că înainte de a rula teste folosind de noduri ascunse Dar chiar și zece noduri ascunse oferă o precizie de , , sau %, ceea ce este de asemenea impresionant Fixează acest fapt în mintea ta O rețea neuronală este capabilă să dea rezultate bune chiar și cu un număr mic de noduri ascunse în care are loc învățarea, ceea ce indică capabilitățile sale puternice Pe măsură ce numărul de noduri ascunse crește în continuare, rezultatele continuă să se îmbunătățească, dar nu la fel de dramatic În același timp, timpul petrecut pentru antrenarea rețelei crește semnificativ, deoarece adăugarea fiecărui nod ascuns suplimentar duce la o creștere a numărului de conexiuni între nodurile stratului ascuns cu nodurile stratului anterior și următor și cu ea cantitatea de calcul ! Prin urmare, este necesar să se ajungă la un compromis între numărul de noduri ascunse și costurile de timp permise Pentru computerul meu, numărul optim de noduri este de două sute Este posibil ca computerul să ruleze mai repede sau mai lent De asemenea, am stabilit un nou record de precizie: , cu de noduri ascunse Un calcul lung cu de noduri a oferit o precizie de , Acest lucru este de fapt destul de bun în comparație cu rezultatele benchmarkului postate pe site-ul Lecun la http://yann lecun com/exdb/mnist/ Revenind la grafice, putem observa că limita de acuratețe de % inatinsă până acum a fost depășită prin modificarea configurației rețelei Rezumând Oferind o evaluare generală a muncii pe care am făcut-o, vreau să subliniez că atunci când am creat o rețea neuronală folosind Python , am folosit doar cele mai simple concepte Cu toate acestea, cu ajutorul rețelei noastre neuronale, chiar și fără a folosi trucuri matematice suplimentare , am reușit să obținem rezultate destul de decente, comparabile cu cele obținute de oamenii de știință și cercetătorii profesioniști Veți găsi material suplimentar interesant în Capitolul , dar chiar dacă nu aplicați ideile prezentate acolo, vă puteți simți liber să continuați să experimentați cu rețeaua neuronală pe care am creat-o deja - utilizați un număr diferit de noduri ascunse, setați diferiți factori de scalare , sau chiar folosiți o altă funcție de activare și analizați ce se întâmplă Cod final Pentru comoditatea cititorilor, codul final este mai jos, disponibil și pe GitHub Caiet Python pentru cartea „Crearea unei rețele neuronale” Cod pentru a crea o rețea neuronală cu straturi împreună cu cod pentru a-l antrena cu setul de date MNIST (c) Tariq Rashid, Licență GPLv import numpy biblioteca scipy special conține sigmoid exit() import scipy special bibliotecă pentru afișarea grafică a matrițelor import matplotlib pyplot garantați plasarea graficelor în acest notebook, nu într-o fereastră separată %matplotlib inline definirea clasei rețelei neuronale rețea neuronală de clasă: # inițializați rețeaua neuronală def init (seif, inputnodes, hiddennodes, outputnodes, ^rata de învățare): setați numărul de noduri din stratul de intrare, ascuns și de ieșire self inodes = inputnodes self hnodes = hiddennodes self onodes = outputnodes Matrice de coeficienți de greutate a legăturilor wih (între intrarea și straturi ascunse) și cine (între straturile ascunse și de ieșire) Coeficienții de pondere a legăturilor dintre nodul i și nodul j următorul strat sunt desemnate ca w i j: va w wl w etc seif wih = numpy random normal( , , pow(seif hnodes, - , ), b (self hnodes, self inodes)) seif who = numpy random normal( , , pow(seif onodes, - , ), (seif onodes, self hnodes)) # rata de învățare seif Ir = rata de învățare folosind sigmoid ca funcție de activare seif activation function = lambda x: scipy special expit(x) pass antrenamentul rețelei neuronale def train(self, inputs list, targets list): transformarea unei liste de valori de intrare într-o matrice bidimensională inputs = numpy array(inputs list, ndmin= ) T targets = numpy array(targets list, ndmin= ) T calculați semnalele de intrare pentru stratul ascuns hidden inputs = numpy dot(seif wih, inputs) calculați semnalele de ieșire pentru stratul ascuns hidden outputs = seif,activation function(hidden inputs) calculați intrările pentru stratul de ieșire final inputs = numpy dot(seif who, hidden outputs) calculați semnalele de ieșire pentru nivelul de ieșire final outputs = seif activation function(final inputs) erori de strat de ieșire = (valoarea țintă - valoarea reală) output errors = targets - final outputs erorile de strat ascunse sunt erori output errors, distribuite proporţional cu coeficienţii de greutate ai obligaţiunilor și recombinat pe noduri ascunse hidden errors = numpy dot(seif who T, output errors) actualizați greutățile pentru conexiunile dintre straturile ascunse și de ieșire self who += seif Ir * numpy dot((output errors * ^>final outputs * ( - final outputs)), ^>numpy transpose(hidden outputs)) actualizați ponderile pentru legăturile dintre straturile de intrare și ascunse self wih += seif Ir * numpy dot((hidden errors * ^>hidden outputs * ( - hidden outputs)), numpy transpose(inputs)) trece sondaj de rețea neuronală def queryfself, inputs list): transforma lista valorilor de intrare într-o matrice bidimensională inputs = numpy array(inputs list, ndmin= ) T calculați semnalele de intrare pentru stratul ascuns hidden inputs = numpy dot(seif wih, inputs) calculați semnalele de ieșire pentru stratul ascuns hidden outputs = seif activation function(hidden inputs) calculați intrările pentru stratul de ieșire final inputs = numpy dot(seif who, hidden outputs) calculați semnalele de ieșire pentru nivelul de ieșire final outputs = seif activation function(final inputs) returnează final outputs numărul de noduri de intrare, ascunse și de ieșire input nodes = hidden nodes = output nodes= rata de învățare rata de învățare= , instanția rețelei neuronale n = NeuralNetwork(noduri intrare, noduri ascunse, noduri ieșire, rata de învățare) încărcați setul de date de antrenament în listă MNIST setează fișierul csv training data file = open("mnist dataset/mnist train csv", 'r ) training data list = training data file readlines () training data file close() antrenamentul rețelei neuronale variabila epochs specifică de câte ori antrenamentul setul de date este utilizat pentru a antrena rețeaua epoci= pentru e în interval (epoci): # repetați peste toate înregistrările din setul de date de antrenament pentru înregistrare în training data list: obțineți o listă de valori dintr-o intrare folosind simboluri virgula (', ') ca separatori all values = record split (',') scalare și deplasare a valorilor de intrare intrări = (numpy asfarray(all values[ :]) / , * , ) + , creați valori țintă de ieșire (toate egale cu , , dincolo de cu excepția valorii markerului dorit de , ) targets = numpy zeros(output nodes) + , all values[ ] - valoarea markerului țintă pentru această intrare targets[int(all values[ ])] = , n train(intrari, tinte) trece trece încărcați setul de date de testare în listă MNIST setează fișierul csv test data file = open("mnist dataset/mnist test csv", 'r') test data list = test data file readlines() test data file close() testarea rețelelor neuronale Tabloul de punctaj al performanței rețelei, tabel de punctaj gol inițial = [] parcurgeți în buclă toate înregistrările din setul de date de testare pentru înregistrare în test data list: obțineți o listă de valori dintr-o intrare folosind simboluri virgula (', ') ca separatori all values = record split(',') răspunsul corect este prima valoare corect label = int(all values[ ]) scalare și deplasare a valorilor de intrare intrări = (numpy asfarray(all values[l:]) / , * , ) + , sondaj de rețea ieșiri = n interogare(intrari) indicele celei mai mari valori este valoarea simbolului labei = numpy argmax(outputs) adăugați scorul de răspuns al rețelei la sfârșitul listei if (labei == corect label): în cazul unui răspuns corect al rețelei, atașați pentru a lista valoarea anexează cardul de scor ( ) altceva: în cazul unui răspuns incorect al rețelei, atașați pentru a lista valoarea anexează tabloul de bord ( ) trece trece calculați indicatorul de performanță în formular cota de răspunsuri corecte scorecard array = numpy asarray(scorecard) prinț ("performanță = ", scorecard array sum() / b scorecard array size) CAPITOLUL Mai multe proiecte interesante În acest capitol, explorăm o serie de idei originale Ele nu au legătură cu înțelegerea elementelor de bază ale rețelelor neuronale, așa că nu vă jenați dacă ceva nu vă este clar Întrucât capitolul este destinat mai mult divertismentului, vom accelera ritmul, deși se vor da explicații simple acolo unde este necesar Scriere proprie În capitolul , am recunoscut imagini cu cifre scrise de mână din baza de date MNIST De ce să nu-ți folosești propriul scris de mână? În acest experiment, vom crea propria noastră bază de date de teste folosind numere scrise de mână În plus, vom încerca să simulăm diferite tipuri de scris de mână, precum și imagini zgomotoase și sparte, pentru a vedea cât de bine le poate gestiona rețeaua neuronală Puteți utiliza orice editor grafic pentru a crea imagini Nu trebuie să o faci cu software-ul scump Photoshop O alternativă bună este GIMP gratuit și open source ( www gimp org ), disponibil pentru computerele Windows, Mac și Linux Puteți chiar să scrieți numerele în creion pe o bucată de hârtie și apoi să scanați sau să faceți o fotografie cu smartphone-ul sau cu camera foto Singura cerință este ca imaginea cifrelor să fie pătrat (lungimea este egală cu lățimea) și prezentat în format PNG Acest format poate fi selectat din lista de formate acceptabile în majoritatea editoarelor grafice la executarea comenzii de meniu FileSave As sau SiloExport Iată cum arată unele dintre imaginile pe care le-am pregătit Am scris numărul „ ” cu un marker Numărul „ ” este scris cu cretă Am scris numărul „ ” cu un marker, dar am făcut linia întreruptă în mod deliberat Numărul „ ” este luat dintr-un font tipic de ziar sau de carte, dar este ușor neclar Cifra „ ” este parcă acoperită cu ondulații, de parcă l-am vedea ca pe o reflexie pe suprafața apei Ultima imagine este aceeași cu cea anterioară, dar i s-a adăugat zgomot pentru a îngreuna în mod deliberat rețeaua neuronală recunoașterea cifrei Toate acestea sunt amuzante, dar există și un punct serios Oamenii de știință de la uimitoarea capacitate a creierului uman de a menține funcționalitatea chiar și după ce a suferit atingeri daune Se presupune că cunoștințele dobândite într-o rețea neuronală sunt distribuite între mai multe conexiuni și, prin urmare, chiar dacă unele conexiuni sunt deteriorate, conexiunile rămase pot funcționa cu succes Aceasta înseamnă, de asemenea, că pot funcționa destul de bine chiar dacă imaginea de intrare este deteriorată sau incompletă Aceasta este capacitatea creierului nostru și aceasta este ceea ce vrem să testăm cu numărul încrucișat „ ” descris în ilustrația de mai sus În primul rând, trebuie să creăm versiuni mai mici ale imaginilor PNG, scalându-le la x pixeli pentru a se potrivi cu datele MNIST pe care le- am folosit mai devreme Puteți utiliza editorul dvs grafic pentru aceasta Pentru a citi și decoda date din formatele de imagine comune, inclusiv PNG, folosim din nou bibliotecile Python Aruncă o privire la următorul cod simplu import scipy mise img array = scipy misc imread(image file name, flatten=True) img data = - img array reshape( ) img data = (img data / * ) + Funcția scipy misc imreadO ne va ajuta să obținem date din fișiere imagine, cum ar fi fișiere PNG sau JPG Pentru a utiliza biblioteca scipy mise , aceasta trebuie importată Parametrul flatten=True transformă imaginea într-o simplă matrice de numere în virgulă mobilă și, dacă imaginea este colorată, convertește codurile de culoare în tonuri de gri, ceea ce ne dorim Următoarea linie convertește o matrice pătrată de x într-o listă lungă de valori, care este necesară pentru a alimenta datele rețelei neuronale Am mai făcut asta de multe ori înainte Ceea ce este nou aici este scăderea valorilor matricei de la Trebuie să facem acest lucru deoarece codul este de obicei negru și codul este alb, dar setul de date MNIST utilizează schema inversă , așa că trebuie să inversăm culorile pentru a se potrivi cu convențiile MNIST Ultima linie realizează scalarea datelor cu care sunteți deja familiarizat, transformându-l într-un interval de valori de la , la , Un exemplu de cod care demonstrează cum să citiți fișierele PNG este disponibil pe GitHub la următoarea adresă URL: https://github com/makeyourownneuralnetwork/makeyourownneuralnetwork/blob/master/part load own images ipynb Trebuie să creăm o versiune a programului pe care l-am folosit mai devreme pentru a crea rețeaua neuronală de bază și să o antrenăm cu setul de date MNIST, dar acum vom testa programul cu setul de date creat din imaginile noastre Noul program este disponibil pe site-ul GitHub la următoarea adresă: https://github com/makeyourownneuralnetwork/makeyourownneuralnetwork/ blob/master/part neural network mnist and own data ipynb Ea lucreaza? Bineînțeles că funcționează! Următoarea ilustrație arată rezultatele unui sondaj de rețea folosind imaginile noastre După cum puteți vedea, rețeaua neuronală a reușit să recunoască toate imaginile, inclusiv numărul „ ” corupt în mod deliberat Numai numărul zgomotos „ ” nu a putut fi recunoscut Experimentați cu imaginile pe care le-ați pregătit , inclusiv cu imagini cu numere scrise de mână, și vedeți dacă rețeaua neuronală funcționează cu adevărat De asemenea, verificați cât de departe puteți merge cu numere corupte sau distorsionate Veți fi uimit de flexibilitatea rețelei noastre neuronale Să intrăm în „creierul” rețelei neuronale Rețelele neuronale sunt utile în rezolvarea acelor probleme pentru care este dificil să se vină cu un algoritm de rezolvare simplu și clar, cu reguli fixe Imaginează-ți doar ce set de reguli ar trebui să fie care guvernează procedura de determinare a cifrei scrise de mână reprezentată de o imagine! Veți fi de acord că este destul de dificil să creați astfel de reguli, iar probabilitatea ca încercările noastre să aibă succes este foarte mică Cutie neagră misterioasă terminat antrenamentul rețelei neuronale și ați testat-o pe baza datelor de testare, vă aflați în esență într-o cutie neagră De fapt, nu știți cum este generat un răspuns, dar este generat totuși! Nu cunoașterea funcționării interioare nu este întotdeauna o problemă dacă îți pasă de răspunsuri și nu-ți pasă cum le obții Dar tocmai de acest dezavantaj suferă metodele considerate de învățare automată: învățarea nu înseamnă întotdeauna înțelegerea esenței problemei pe care cutia neagră a învățat să o rezolve Să vedem dacă putem privi în interiorul rețelei noastre neuronale simple și să vedem ce a învățat pentru a vizualiza cunoștințele pe care le-a dobândit prin antrenament Am putea analiza ponderile care sunt , până la urmă, unde se concentrează tot ceea ce învață rețeaua Dar este puțin probabil ca aceste date să poarte informații utile pentru noi, mai ales având în vedere că rețeaua neuronală funcționează în așa fel încât să distribuie ceea ce învață în diverse conexiuni Acest lucru asigură că rețeaua este rezistentă la daune, așa cum este tipic pentru creierul biologic Este puțin probabil ca eliminarea unuia sau mai multor noduri să dezactiveze complet rețeaua să funcționeze normal Luați în considerare o idee nebună Solicitări înapoi De obicei, punem o întrebare unei rețele instruite și aceasta ne oferă un răspuns În exemplul nostru, întrebarea este o imagine a unei cifre scrise de mână Răspunsul este un simbol care reprezintă un număr în intervalul de la la Dar dacă inversăm acest proces? Ce se întâmplă dacă dăm un marker nodurilor de ieșire și urmărim propagarea semnalului prin rețeaua deja antrenată în direcția opusă până când obținem imaginea originală la nodurile de intrare? Următoarea diagramă ilustrează procesul normal de propagare a cererii și procesul de propagare inversă a cererii tocmai descris cerere directă normală cerere inversă изображение изображение Știm deja să propagam semnalele prin rețea, netezindu-le cu ponderi și recombinând la noduri înainte de a le aplica funcția de activare Tot acest mecanism funcționează și pentru semnalele care se propagă înapoi, cu excepția faptului că în acest caz este utilizată funcția de activare inversă Dacă y \u d f (x) este funcția de activare pentru semnale directe, atunci funcția sa inversă este x \u d q (y) Pentru funcția logistică, găsirea funcției inverse se reduce la algebră simplă: y \u d / ( + e' x ) + e' x = /y e' x = ( /y)- = ( -y)/y -x = n[ ( -y) /y] x - n[y/ ( - y)] Această funcție se numește logit și biblioteca scipy Python special îl oferă ca scipy special logit() , la fel ca funcția logistică scipy special expit() Înainte de a folosi funcția de activare inversă logit() , trebuie să ne asigurăm că semnalele sunt valide Ce inseamna asta? Vă amintiți că sigmoidul ia orice valoare și returnează o valoare între și , excluzând valorile de limită Funcția inversă trebuie să ia valori din același interval - de la la , excluzând valorile și în sine - și să returneze o valoare, care poate fi orice număr pozitiv sau negativ Pentru a face acest lucru, pur și simplu luăm toate valorile din stratul căruia îi vom aplica funcția logit() și le aducem în intervalul valid Ca atare, am ales un interval de numere de la , la , Codul corespunzător este disponibil pe site-ul GitHub la următoarea adresă: https://github com/makeyourownneuralnetwork/makeyourownneuralnetwork/ blob/master/part neural network mnist backquery ipynb Marker „O” Să vedem ce se întâmplă dacă executăm o interogare inversă pentru markerul „ ”, adică dăm nodurilor de ieșire valori egale cu , , cu excepția primului nod corespunzător etichetei „ ”, căruia îi dăm valoarea , Cu alte cuvinte, trecem o matrice de numere [ , , , , , , , , , , , , , , , , , , , ] nodurilor de ieșire Mai jos este imaginea obținută la nodurile de intrare E deja interesant! Acesta este modul în care „creierul” rețelei noastre neuronale „vede” imaginea Cum se evaluează imaginea primită? Cum ar trebui interpretat? Principalul lucru care vă atrage imediat atenția este forma rotunjită a imaginii Acest lucru este adevărat, deoarece am întrebat rețeaua neuronală care ar fi întrebarea ideală, răspunsul la care ar fi „O” De asemenea, puteți evidenția zonele întunecate, luminoase și gri dintr-o imagine Zonele întunecate sunt acele părți ale imaginii dorite care , dacă sunt încercuite cu un marcator, indică faptul că „ ” ar trebui considerat răspunsul Forma conturului lor seamănă cu adevărat cu numărul „O” de lumină sunt acele zone ale imaginii dorite care ar trebui considerate necompletate, dacă ne oprim la versiunea că răspunsul este „ ” Această ipoteză pare rezonabilă, deoarece aceste zone sunt situate în interiorul conturului cifrei „O” Zonele gri practic nu transportă nicio informație pentru rețeaua neuronală Deci, în termeni generali, am reușit să înțelegem cum s-a format capacitatea rețelei de a clasifica imaginile cu markerul „O” Am avut norocul să privim în interiorul rețelei neuronale, deoarece în cazul rețelelor cu o structură mai complexă și un număr mare de straturi, precum și în cazul problemelor mai complexe, cu greu se poate conta pe o interpretare atât de ușoară a rezultatelor Alte imagini Mai jos sunt rezultatele interogării inverse pentru restul cazurilor Doamne! Am primit din nou niște imagini destul de interesante Ele par a fi imagini ale creierului unei rețele neuronale obținute cu ajutorul tomografiei computerizate Se pot face câteva observații despre aceste imagini • Marcatorul „ ” este destul de clar recunoscut ca fiind numărul „ ” Dacă urmăriți pixelii întunecați ai imaginii cu un creion, veți obține o confirmare destul de vizuală a acestui lucru De asemenea, zona „albă” iese în evidență vizibil, unde nu ar trebui să existe elemente umplute Ambii factori împreună indică faptul că în acest caz avem de-a face cu numărul „ ” Același lucru este valabil și pentru markerul „ ”, deoarece aici se află aceiași doi factori: asemănarea conturului pixelilor întunecați, dacă este conturat cu un creion, cu numărul „ ” și prezența zonelor albe în locurile unde ar trebui să fie în „ ” digital Markerii „ ” și „ ” sunt interpretați în același mod Cazul markerului „ ” este interesant din cauza prezenței unei figuri care seamănă cu patru cadrane și zone albe Imaginea obținută pentru markerul „ ” este foarte asemănătoare cu un om de zăpadă, al cărui „cap și corp” sunt formate din două zone albe, care corespund în general numărului „ ” Imaginea pentru markerul „ ” ne încurcă Se pare că rețeaua a acordat mai multă atenție zonelor care ar trebui să rămână albe decât zonelor care ar trebui să fie umbrite Ei bine, asta a învățat rețeaua din exemple Imaginea pentru markerul „ ” este în general ilizibilă Nu are zone întunecate clar definite și nici figuri formate din zone albe Acesta este rezultatul a ceea ce rețeaua nu a învățat din exemplele oferite, obținând o acuratețe generală de , % Privind această imagine, concluzia este că poate că rețeaua are nevoie de exemple de instruire suplimentare pentru a o ajuta să recunoască mai bine modelele de cifre „ ” Așadar, vi s-a oferit o oportunitate fascinantă de a privi în lumea interioară a unei rețele neuronale și, după cum se spune, de a vedea cum funcționează creierul acesteia Crearea de noi date de antrenament: rotații Când se evaluează datele de antrenament MNIST, trebuie spus că acestea conțin un set destul de bogat de cifre scrise de mână Conține multe tipuri de scris de mână și stiluri, atât bune, cât și rele Rețeaua neuronală ar trebui să învețe din cât mai multe moduri posibile de a scrie numere Din fericire, asta setul include și multe forme de scriere a numărului „ ” Unele dintre ele sunt comprimate artificial, altele sunt întinse, unele sunt întoarse, în unele vârful numărului este deschis, în altele este închis Nu ar fi util să creați ortografii suplimentare și să le folosiți ca exemple de practică? Cum să o facă? Este dificil pentru noi să colectăm o colecție de mii de exemple suplimentare de scriere scrisă de mână a unei anumite figuri Sau mai bine zis, am putea incerca, dar ne-ar costa mult efort Dar, până la urmă, nimic nu ne împiedică să luăm exemple existente și să creăm altele noi pe baza lor, rotind numerele în sensul acelor de ceasornic sau în sens invers acelor de ceasornic, să zicem, cu grade În acest caz, am putea crea două exemple suplimentare pentru fiecare dintre cele existente Am putea crea multe alte exemple prin rotirea mostrelor în unghiuri diferite, dar ne vom limita la + și - grade pentru a vedea cum funcționează această idee extensiile și bibliotecile Python vor fi de mare ajutor în acest sens funcția scipy ndimagine interpolare rotate() rotește imaginea reprezentată de matrice după unghiul dat, care este exact ceea ce ne dorim Descrierea funcției poate fi găsită aici: https://docs scipy org/doc/scipy- o/reference/generated/scipy ndimage interpolation rotate html Amintiți-vă că valorile noastre de intrare sunt o listă unidimensională de de elemente, deoarece ne-am proiectat rețeaua neuronală pentru a accepta o listă lungă de intrări Trebuie să reorganizăm această listă într-o matrice de x pentru a roti imaginea și apoi să facem operația inversă de transformare a matricei într-o listă de de intrări pe care le vom alimenta în rețeaua neuronală Codul de mai jos arată un exemplu de utilizare a funcției scipy ndimage interpolation rotate () , presupunând că avem deja matricea scaled input discutată mai devreme crearea de variante de imagini rotite cu un anumit unghi rotiți cu grade în sens invers acelor de ceasornic inputs pluslO img = ^scipy ndimage interpolation rotate(scaled input reshape( , ), ^ , cval= , , reshape=False) # rotiți cu grade în sensul acelor de ceasornic inputs minuslO img = 'bscipy ndimage interpolation rotate(scaled input reshape ( , ), ^>- , cval= , reshape=False) Acest cod convertește matricea de intrare scalată originală într-o matrice de x Parametrul reshape=False împiedică biblioteca să fie prea zeloasă în dorința ei de a fi cât mai utilă și comprima imaginea în așa fel încât, după rotire , să încapă totul în matrice și să nu fie tăiat niciun pixel din ea Parametrul cvai este valoarea folosită pentru a popula elementele matricei care nu existau în matricea originală, dar apar acum Vom renunța la valoarea implicită de , și o vom înlocui cu , deoarece folosim o gamă părtinitoare de intrări pentru a evita introducerea zerourilor în rețeaua neuronală Înregistrarea (al șaptelea la rând) din setul mic de antrenament MNIST conține o schiță scrisă de mână a numărului „ ” Iată cum arată imaginea ei originală și două variante rotite ale acesteia, obținute folosind codul nostru Rezultatele sunt clare Versiunea imaginii originale, rotită cu + grade, este un exemplu de scriere de mână umană „ rulând” textul spre stânga Și mai interesantă este versiunea originalului la, rotită cu - grade, adică în sensul acelor de ceasornic Această versiune este chiar mai plată decât originalul și, într-un fel, mai reprezentativă ca imagine didactică creăm un nou notebook Python cu codul rețelei neuronale existente, dar cu exemple de antrenament suplimentare create prin rotirea imaginilor originale cu grade pe fiecare parte Acest cod este disponibil pe site-ul GitHub la următoarea adresă: https://github com/makeyourownneuralnetwork/makeyourownneuralnetwork/ blob/master/part neural network mnist data with rotations ipynb Rularea acestui cod cu o rată de învățare de , și doar o singură epocă de antrenament are un scor de eficiență de , Aceasta este o îmbunătățire semnificativă față de , obținută fără imagini suplimentare rotite Un astfel de indicator este deja printre cele mai bune dintre cele publicate pe site-ul lui Yann Lecun ( http://yann lecun com/exdb/mnist/ HYPERLINK "http://yann lecun") Să derulăm o serie de experimente, variind numărul de epoci, pentru a vedea dacă ne putem îmbunătăți în continuare scorul de eficiență a învățării De asemenea, să reducem rata de învățare la , , deoarece furnizând mult mai multe date de antrenament și, prin urmare, mărind timpul total de antrenament, ne putem permite pași de antrenament mai mici și mai atenți Rețineți că nu ne așteptăm să obținem o acuratețe de recunoaștere de %, deoarece probabil că există o limită naturală a preciziei datorită arhitecturii specifice a rețelei neuronale sau a caracterului complet al datelor de antrenament și, prin urmare, cu greu putem obține o precizie mai mare peste aproximativ % Prin „specifice ale arhitecturii rețelei neuronale” ne referim aici la alegerea numărului de noduri din fiecare strat, a numărului de straturi ascunse, a funcției de activare și așa mai departe Mai jos sunt grafice care arată dependența eficienței rețelei neuronale de unghiul de rotație al imaginilor de antrenament suplimentare Pentru comparație, este prezentat și punctul de date corespunzător absenței exemplelor suplimentare După cum puteți vedea, pentru cinci epoci, cel mai bun rezultat este , , sau o precizie de , % Aceasta este o îmbunătățire clară față de exemplul anterior De asemenea, trebuie remarcat faptul că pe măsură ce unghiul de rotație a imaginii crește, precizia scade Acest lucru este de înțeles, deoarece la unghiuri mari de rotație imaginile rezultate nu reprezintă de fapt cifre deloc Imaginează-ți numărul „ ” rotit cu de grade, adică asezat pe o parte Nu va fi un trio Prin urmare, adăugând exemple de antrenament cu unghiuri de rotație excesiv de mari, reducem calitatea antrenamentului, deoarece exemplele adăugate sunt false Poate că unghiul optim de rotație pentru imagini suplimentare de antrenament este de grade Pentru zece epoci, acuratețea maximă record este de , , sau aproape % ! Acesta este cu adevărat un rezultat uimitor pentru o rețea neuronală simplă de acest tip Rețineți că nu am folosit trucuri de matematică fanteziste pe rețeaua neuronală sau pe date, așa cum fac unii oameni Am păstrat cea mai mare simplitate și totuși am obținut rezultate de care ne putem mândri pe bună dreptate Buna treaba! Epilog Sper că am reușit să demonstrez că, atunci când sunt folosite abordări tradiționale, problemele care sunt ușor de rezolvat de oameni sunt o nucă greu de spart pentru computere Una dintre provocările aduse așa-numitei „inteligențe artificiale” este problema recunoașterii modelelor (imaginii) S-au realizat progrese semnificative în domeniul recunoașterii imaginilor, precum și într-o serie de alte domenii problematice, prin utilizarea rețelelor neuronale Impulsul dezvoltării teoriei rețelelor neuronale a fost dorința de a rezolva misterul creierului biologic, care, având, la prima vedere, mai puțină viteză și resurse în comparație cu supercalculatoarele moderne, chiar și în cazul unor astfel de creaturi vii precum sperietoarele sau insecte, este capabil să rezolve probleme complexe, cum ar fi controlul zborului, alimentația sau construcția de locuințe În plus, creierul biologic este neobișnuit de rezistent la daune și este capabil să distingă chiar și semnalele imperfecte Calculatoarele digitale și abordările tradiționale de calcul sunt încă departe de acest lucru Astăzi, rețelele neuronale sunt un factor cheie de succes pentru cele mai fantastice proiecte din domeniul inteligenței artificiale Interesul pentru aplicarea rețelelor neuronale în domeniul învățării automate, în special învățarea profundă, care implică o ierarhie a metodelor de învățare, continuă fără încetare La începutul lui , sistemul informatic al lui DeepMind, acum deținut de Google, a învins un jucător profesionist Go Acesta a fost un punct de cotitură în dezvoltarea inteligenței artificiale, deoarece jocul go-ului necesită mult mai multă gândire strategică decât șahul, iar cercetătorii au crezut că un astfel de eveniment important va trebui să aștepte mulți ani de acum încolo Rețelele neuronale au jucat un rol cheie în acest succes Aș vrea să cred că am putut să vă demonstrez cât de simple sunt ideile în centrul rețelelor neuronale De asemenea, sper să vă bucurați să experimentați cu rețelele neuronale Poate că acest lucru vă va trezi interesul pentru explorarea altor tipuri de învățare automată și inteligență artificială Dacă cel puțin una dintre presupunerile mele se dovedește a fi corectă, scopul meu este atins Epilog ANEXA A O scurtă introducere în calculul diferențial Imaginează-ți că conduci într-o mașină cu o viteză constantă de de mile pe oră Apoi apăsați pedala de accelerație Dacă îl ții constant apăsat, viteza va crește treptat la , , , mph etc Viteza vehiculului se modifică În această secțiune, explorăm natura schimbării în diferite cantități și discutăm modalități de a descrie matematic aceste modificări Ce se înțelege prin „descriere matematică”? Aceasta înseamnă stabilirea de relații între diferite cantități, ceea ce ne va permite să determinăm cu exactitate gradul de modificare a unei cantități atunci când alta se modifică De exemplu, putem vorbi despre schimbarea vitezei unei mașini în timp, urmărită de un ceas de mână Alte exemple posibile sunt dependența înălțimii plantei de nivelul precipitațiilor sau modificarea lungimii unui arc în funcție de forța aplicată la capete Matematicienii numesc acest calcul diferenţial Am ezitat mult timp înainte să mă hotărăsc să pun acest termen în titlul cererii Mi s-a părut că mulți oameni vor fi descurajați de asta, pentru că vor găsi materialul prezentat mai jos prea complicat pentru a pierde timpul cu el Cu toate acestea, doar profesorii proasți sau manualele școlare proaste ar putea insufla o asemenea atitudine față de acest subiect de discuție Citind apendicele până la sfârșit, veți vedea că descrierea matematică a schimbării - care este exact ceea ce este conceput calculul diferențial - nu este deloc dificilă în multe scenarii utile Chiar dacă sunteți deja familiarizat cu calculul, poate de la școală, ar trebui să citiți totuși această anexă , deoarece veți învăța o mulțime de lucruri interesante despre istoria matematicii Vă va fi util să luați în considerare ideile și instrumentele de analiză matematică pentru a le utiliza pe viitor la rezolvarea diferitelor probleme Dacă vă plac eseurile istorice, consultați The Great Controversies in Science (Williams Publishing House, ), care povestește despre drama dintre Leibniz și Newton, fiecare dintre care și-a atribuit descoperirea calculului diferențial! Linie dreapta Pentru a ne pregăti de muncă, să începem cu un scenariu foarte simplu de încălzit Imaginați-vă din nou o mașină care se mișcă cu o viteză constantă de de mile pe oră Nici mai mult, nici mai puțin, ci exact de mile pe oră Tabelul de mai jos arată viteza mașinii în diferite momente, cu un interval de jumătate de minut Timp (min ) Viteza (mph) , treizeci , treizeci treizeci treizeci treizeci treizeci treizeci Următorul grafic prezintă valorile vitezei la momentele respective După cum puteți vedea, viteza nu se modifică în timp și, prin urmare, punctele se aliniază într-o linie dreaptă Această linie nu urcă (creșterea vitezei) și nici în jos (scăderea vitezei), dar rămâne la mph În acest caz, expresia matematică a vitezei, pe care o vom nota s, este următoarea: S = ~ Dacă cineva ne-ar întreba cum se schimbă viteza în timp , am răspunde că nu se schimbă Rata variației sale este egală cu zero Cu alte cuvinte, viteza nu depinde de timp Dependența în acest caz este zero Tocmai am finalizat una dintre operațiile de calcul diferențial! Nu glumesc! Calculul diferențial se reduce la găsirea unei modificări a unei cantități ca urmare a unei modificări a alteia În acest caz , ne interesează modul în care viteza se modifică în timp Cele de mai sus pot fi scrise sub următoarea formă matematică: Care sunt aceste simboluri? Gândiți-vă la ele ca însemnând „cum se schimbă viteza în timp” sau „cum depinde s de t” Astfel, această expresie este o înregistrare matematică compactă a afirmației că viteza nu se modifică în timp Cu alte cuvinte, schimbarea orei nu afectează viteza Dependența vitezei de timp este zero Asta înseamnă zero în expresie Ambele cantități sunt complet independente Bine, bine - am prins-o deja! De fapt, această independență poate fi observată cu ușurință dacă ne uităm din nou la expresia pentru viteza s = În general, nu există nici măcar un indiciu de timp în ea, i e îi lipseşte orice manifestare a simbolului t Deci să spun că ds/dt = , nu avem nevoie de niciun calcul diferențial În limbajul matematicienilor, „decurge din însăși forma expresiei” Expresiile de forma ds / dt, care determină gradul de modificare a unei mărimi atunci când alta se modifică, se numesc derivate Pentru scopurile noastre, cunoașterea acestui termen nu este necesară, dar îl puteți întâlni în altă parte Acum să vedem ce se întâmplă dacă apăsați pedala de accelerație Merge! linie dreaptă oblică Imaginați-vă că aceeași mașină se mișcă cu de mile pe oră Păși pe pedala de accelerație și mașina ia viteză Țineți pedala apăsată, vă uitați la vitezometru și îl notați la fiecare de secunde După de secunde, viteza mașinii a fost de de mile pe oră Într-un minut se ridică la de mile pe oră După de secunde, mașina accelerează până la mile pe oră, iar după două minute, mașina accelerează până la mile pe oră În fiecare minut, viteza unei mașini crește cu mile pe oră Aceste informații sunt rezumate în tabelul de mai jos Timp (min ) Viteza (mph) , treizeci , cincizeci După cum puteți vedea, creșterea vitezei mașinii de la la de mile pe oră are loc la o rată constantă de schimbare Este într-adevăr constantă, deoarece creșterea vitezei pentru fiecare jumătate de minut rămâne aceeași, rezultând un grafic al vitezei în linie dreaptă Care este expresia vitezei? La ora zero, viteza este de de mile pe oră Apoi, adăugăm mile pe oră pentru fiecare minut Astfel, expresia necesară trebuie să aibă următoarea formă: viteza = h '' Raspberry Pi este foarte bun prin faptul că nu permite utilizatorilor obișnuiți să introducă comenzi care duc la schimbări profunde în sistem Pentru a face acest lucru, trebuie să aveți privilegii speciale Introduceți următoarea comandă într-o fereastră de terminal: sudo su- În loc de semnul dolar ($), care se termina anterior sub promptul de introducere a comenzilor, ar trebui să apară un semn de lire sterlină (#) Acest lucru indică faptul că acum aveți privilegii administrative și ar trebui să fiți atenți la ce comenzi introduceți Următoarele comenzi actualizează lista de software actual Raspberry Pi și apoi actualizează programele pe care le-ați instalat prin descărcarea de componente software suplimentare apt-get update apt-get dist-upgrade Dacă software-ul dumneavoastră nu a fost actualizat recent , este posibil ca unele programe să necesite această procedură În acest caz, veți vedea multe linii de text intermitent pe ecran Le poți ignora Vi se poate cere să confirmați actualizarea apăsând tasta Cu starea sistemului actualizată, lansați comanda pentru a obține IPython Rețineți că, la momentul scrierii acestui articol, pachetele software Raspbian nu includ versiuni de IPython care vă permit să lucrați cu notebook-urile găzduite de GitHub pe care le -am creat anterior pentru public Dacă au făcut- o, ar fi suficient să tastați pur și simplu apt-get install ipython ipython -notebook sau similar Dacă nu doriți să rulați notebook-uri din GitHub, puteți utiliza în siguranță versiuni mai vechi de IPython și notebook din depozitul de software Raspberry Pi va trebui să utilizați câteva comenzi pip în plus față de comenzile apt-get pentru a le obține din directorul PyPi (Python Package Index) În acest caz, software-ul va fi gestionat de Python și nu de managerul de software al sistemului de operare Următoarele comenzi vă vor oferi tot ce aveți nevoie apt-get install python -matplotlib apt-get install python -scipy pip install jupyter Lucrarea va fi finalizată de îndată ce ultimele rânduri de text clipesc pe ecran Viteza de execuție depinde de modelul specific Raspberry Pi și de viteza conexiunii dvs la internet Iată cum arăta ecranul meu după rularea acestor comenzi th OGS @yyyy^ ffl & De obicei, Raspberry Pi folosește carduri de memorie, așa- numitele carduri SD, precum cele pe care le-ați putea folosi cu camera digitală Ele oferă mai puțină memorie decât computerele convenționale Eliminați pachetele software care au fost descărcate pentru a vă actualiza Raspberry Pi folosind următoarea comandă: apt-a face curat Raspbian , browserul Epiphany a fost înlocuit cu browserul Chromium (o versiune open source a popularului browser Chrome ) Dar Epiphany este mult mai ușor decât Chromium și funcționează mai bine cu micul Raspberry Pi Zero Pentru a-l seta ca browser implicit pentru notebook-urile IPython, utilizați următoarea comandă: update-alternatives config x-www-browser Comanda vă va anunța cu privire la versiunea implicită de browser instalată în prezent și vă va cere permisiunea de a instala o nouă versiune Alegeți numărul care se potrivește cu Epiphany și nu va trebui să faceți nimic altceva Acum totul este gata Reporniți Raspberry Pi dacă actualizarea implică un fel de schimbare profundă, cum ar fi o actualizare a nucleului Pentru a face acest lucru, selectați elementul Shutdown din meniul principal din colțul din stânga sus, apoi elementul Repornire, după cum se arată mai jos O O V th - @ Opțiuni de oprire RD EDk” £ j Oprire ' Reporniți deconectare După repornirea Raspberry Pi, porniți Python rulând următoarea comandă într-o fereastră de terminal: jupyter-notebook Aceasta va lansa automat un browser web cu pagina principală IPython deschisă, unde puteți crea notebook-uri IPython noi Jupyter Notebook este un nou software pentru rularea notebook-urilor Anterior, trebuia să rulați comanda ipython notebook, care va funcționa în continuare în perioada de tranziție Pagina principală IPython este prezentată mai jos O OQH @ Др^пірЬегтур > O OQH @ Др^пірЬегтур >httD//localhost e /tree token*a O fa dbOd i O f a fa l f e e e cd jupyter Fișier* Runr^g CkiMO Selectați temi pentru a peHorm 'ctioni ori them upioed *•* ’ O upioed *•* ’ OMinunat! Am luat IPython și am rulat un shell pe Raspberry Pi De acum înainte, puteți să începeți și să vă creați propriile notebook-uri IPython, dar vă vom demonstra că putem rula codul pe care l-am dezvoltat mai devreme pe Raspberry Pi Vom obține caietele și baza de date cu cifre scrise de mână MNIST pe GitHub Deschideți o filă nouă în browser și accesați următorul link: https://github com/makeyourownneuralnetwork/makeyourownneuralnetwork Veți vedea pagina GitHub a proiectului (vezi mai jos) Descărcați fișierele făcând clic pe butonul Clon® sau Download și selectând opțiunea Download ZIP ©' O H @ gjp^aspbeoyp^^ ©' O H @ gjp^aspbeoyp^^ GrtHub • makeyouro GrtHub • makeyouroO https//github com/makeyourownneuralnetwork/makeyourownneuralnetwork GrtHub - face m«k«yourownn*ur»lnetworfc Dwlet» pert nm>r»( networkrnrw»» i«y*r vynb m«k«yourownn*ur»lnetworfc Dwlet» pert nm>r»( networkrnrw»» i«y*r vynbDmnfct fletasoC SUCIZĂ s PEADME md fi P«t mnW det ctJpynb In pwt j>cun fi p*î ^:vml„nc£wo r fi pwt mnrt httD//localno" /tree/rnakeyourownneuralnetwofkmaster jupyter a p»rfo іѵ În ( J : пиару lbrc it natplotlib pyplot „Mtplotllb inline În [Э]: # scipy ndimage pentru matrice de imagini rotative i data list(record] split( ) scaled inpuc - ((nuBpy asfarray(all «alu«s(i:]) / ♦ u ») ♦ U i) reshape( e) În ( J: >rlnv(mmpy nln(scaled lnpuT)) Urmați instrucțiunile din bloc-notes selectând Run AP din meniul CII După ceva timp mai mult decât ar fi necesar în cazul unui laptop modern, ar trebui să vedeți imagini cu numere rotite hnp//iocalhost /r>otefcooJ interpeletlon-) Astfel, ne-am asigurat că instrumente precum încărcarea datelor dintr-un fișier, importarea modulelor de extensie Python pentru lucrul cu matrice și imagini, precum și ieșirea grafică a imaginilor funcționează pe Raspberry Pi Selectați Închidere și oprire din meniul Fișier al acestui blocnotes Acesta este modul în care ar trebui să vă închideți notebook-urile , nu prin simpla închidere a filei browser Antrenarea și testarea rețelei neuronale Să începem antrenarea rețelei neuronale Deschideți blocul de note part neural network mnist data ipynb Prezintă o versiune simplificată a programului nostru, lipsită de caracteristici precum rotația imaginii Deoarece Raspberry Pi nostru este mult mai lent decât un laptop obișnuit, vom reduce unii dintre parametri pentru a reduce cantitatea de calcule, astfel încât să putem verifica imediat dacă codul funcționează și să nu petrecem câteva ore doar pentru a descoperi că nu funcționează Am redus numărul de noduri ascunse la și numărul de epoci la Am folosit în continuare antrenamentul și testul complet Seturi de date MNIST, subseturi reduse care nu au fost create anterior Pentru a rula programul, selectați Run AP din meniul Cel Acum trebuie doar să aștepți De obicei durează aproximativ un minut pentru a finaliza aceste calcule pe laptopul meu, dar în acest caz programul a durat aproximativ de minute Una peste alta, nu este chiar așa de rău, având în vedere că Raspberry Pi Zero costă de aproximativ de ori mai puțin decât laptopul meu Eram pregătit pentru faptul că programul se va încheia abia dimineața О ОѲв @ Dr d»»zr» g ur, Qg G*! - ,J Logout | Python O ,J Logout | Python O> httpZflocalhoste e/notebooks/makeyourownneuralnetwortc-master/pert neural network mnisLdata ipynb part neural n jupyter part n«urel n«twork mnist clata LMt Ch ckpo«, • fa* tcconds ago (autoaavod) edrt Insert Cell Komo! Ajutor Гв| ♦ > «j ♦ ♦ и ■ C coda * a CoHTodbar all »alue$ - înregistrare split( ) /* răspunsul corect este primul valuc corect latoel - rt(all values|G]) Г scalați și mutați intrările intrări - (m»py asfarray(dll values[i:]) / • W) ♦ o d interogați ieșirile netnork - n query(inputs) e cel mai mare ealue corespunde labei labei - nuapy arpaxfoutputs) /* adaugă corect sau incorect la listă ( labei — corect labei): * network $ ansner se potrivește cu răspunsul corect adăugați I la scorecard scorecard append(i) «Gімв: un netnorhs ansnei nu oferă răspuns corect adăuga la scorecard scorecard append( o) da În ( ): d calculați scorul de performanță fracțiunea răspunsurilor corecte scorecard array • nuapy asarray(scorecard) prinț ( ■ scorecard array sun() / scorecard array slze) performanta - , Descriere Raspberry Pi Tocmai am demonstrat că chiar și un computer miniatural precum Raspberry Pi Zero de USD are suficientă funcționalitate pentru a rula complet notebook-uri IPython și pentru a scrie cod pentru a antrena și a testa rețelele neuronale Doar că totul merge puțin mai încet! Index de subiect DAR Anaconda DIN Crom Fișier CSV, E Boboteaza eu IPython, instalare, „Eu Jupyter Notebook, ; M MNIST, ; ; ; set de antrenament, R Python R Raspberry Pi, ; Raspbian, DAR Axon, Algoritm, ; Funcție anonimă, Asimptotă, B Bibliotecă matplotlib pyplot, numpy, scipy, scipy mise, Caiet, funcția booleană, LA Vectorizare, Factor de greutate, ; ; ; ; initializare, ; Produs interior, Pragul de intrare, Apel de funcție, G Tangenta hiperbolica, Învățare profundă, Coborâre în degrade, d Dendrită, ; Descriptor, Calcul, ; Și Import, Proces iterativ, La Tangenta, clasa, Clasificator, liniar, antrenament, Comentariu, Constant, Rata de învățare, ; ; setare, Dependență liniară, Clasificator liniar, Funcție logistică, Expresie Lambda, M Marker, Matrice, reprezentare grafică, numerotare elemente, Matrice, Învățare automată, Metodă, Coborâre în gradient, Forță brută, H Înclinare, ; Saturația rețelei neuronale, Neuron, Rețea neuronală, ; inițializare, sondaj, capacitatea de învățare, testare, ; antrenament, ; ; ; O Propagarea înapoi a erorilor, ; ; Cerere de returnare, Obiect, Eroare, ; ; P variabilă, Recalificare, Predictor, ; Creștere, Derivat, ; Recunoașterea modelelor, Figuri scrise de mână, ; rotație, DIN Netezire, ; Sigmoid, ; ; ; ; Dot Product, Learning Rate, Hidden Layer, ; Capacitate de învățare, Funcție pas, T Terminal, ; Kit de testare, Produs punctual, Punct de întrerupere, Transpunere, Numere transcendentale, Antrenament clasificator, rețele neuronale, ; ; ; Set de antrenament, La Panta, F Funcție, ; en(), list(), matplotlib pyplot imshowO, numpy argmaxO, numpy asfarray(), numpy dot(), numpy random normal(), numpy random rand(), numpy zerosO, ; deschis(), c pow(), print(), readlines(), reshape(), scipy misc imreadO, scipy ndimagine interpolare rotire(), scipy special expit(), scipy special logit(), spit(), activare, ; anonim, apel, parametri, Regula lanțului, Ciclul, H Cutie neagră, E Epocă, ; Eficiență, ; eu celula, дународных конференциях дународных конференциях ьЦДЛсКПШКД ьЦДЛсКПШКД createspace" createspace" UTILIZAȚI CARACTERISTICILE PUTERNICE ALE PYTHON PENTRU A CREA REȚELE NEURALE Această carte este o introducere în teoria și practica construirii rețelelor neuronale Este destinat celor care doresc să învețe ce sunt rețelele neuronale, unde sunt utilizate și cum să creați singuri o astfel de rețea fără a avea experiență în acest domeniu Autorul explică într-un limbaj simplu și ușor de înțeles aspectele teoretice, a căror cunoaștere este necesară pentru înțelegerea principiilor funcționării rețelelor neuronale și redactarea instrucțiunilor de program corespunzătoare Prezentarea materialului este însoțită de una detaliată o procedură pas cu pas pentru crearea unui cod complet funcțional care implementează o rețea neuronală în Python și poate rula chiar și pe un computer în miniatură precum Raspberry Pi Zero Principalele subiecte ale cărții: rețele neuronale și sisteme de inteligență artificială w structura rețelelor neuronale netezirea semnalelor care se propagă prin rețeaua neuronală, folosind funcția de activare instruirea și testarea rețelelor neuronale Mediu de programare interactiv IPython folosind rețele neuronale ca clasificatori de obiecte recunoașterea modelelor cu rețele neuronale Despre autor Tariq Rashid este un expert în analiza cantitativă a datelor și dezvoltarea de soluții open source Deține un doctorat în fizică și un master în Machine Learning și Data Mining Cu sediul la Londra, conduce o echipă locală de dezvoltare Python (de aproximativ de membri), organizează numeroase seminarii și este un vorbitor frecvent la conferințe internaționale www williamșpeblishing com # Содержание # Содержание # Содержание # Содержание Содержание # Содержание # # Пролог # Пролог Природа вдохновила новый золотой век # Природа вдохновила новый золотой век # # Введение # Введение # Введение # Введение Что мы будем делать # Что мы будем делать # Дополнительные замечания # Дополнительные замечания # Дополнительные замечания # Дополнительные замечания # # Глава Как работают нейронные сети # Глава Как работают нейронные сети Простая прогнозирующая машина # Простая прогнозирующая машина # # Глава Как работают нейронные сети # Глава Как работают нейронные сети Задачи классификации и прогнозирования очень близки # Задачи классификации и прогнозирования очень близки # # Глава Как работают нейронные сети # Глава Как работают нейронные сети Тренировка простого классификатора # Тренировка простого классификатора # # Глава Как работают нейронные сети # Глава Как работают нейронные сети Иногда одного классификатора недостаточно # Иногда одного классификатора недостаточно # # Глава Как работают нейронные сети # Глава Как работают нейронные сети Нейроны — вычислительные машины, созданные природой # Нейроны — вычислительные машины, созданные природой # # Глава Как работают нейронные сети # Глава Как работают нейронные сети Нейроны — вычислительные машины, созданные природой # Нейроны — вычислительные машины, созданные природой # # Глава Как работают нейронные сети # Глава Как работают нейронные сети Распространение сигналов по нейронной сети # Распространение сигналов по нейронной сети # # Глава Как работают нейронные сети # Глава Как работают нейронные сети Какая все-таки отличная вещь — умножение матриц! # Какая все-таки отличная вещь — умножение матриц! # # Глава Как работают нейронные сети # Глава Как работают нейронные сети Пример использования матричного умножения в сети с тремя слоями # Пример использования матричного умножения в сети с тремя слоями # # Глава Как работают нейронные сети # Глава Как работают нейронные сети Корректировка весовых коэффициентов в процессе обучения нейронной сети # Корректировка весовых коэффициентов в процессе обучения нейронной сети # # Глава Как работают нейронные сети # Глава Как работают нейронные сети Обратное распространение ошибок при большом количестве слоев # Обратное распространение ошибок при большом количестве слоев # Обратное распространение ошибок от большего количества выходных узлов # Обратное распространение ошибок от большего количества выходных узлов # # Глава Как работают нейронные сети # Глава Как работают нейронные сети Описание обратного распространения ошибок с помощью матричной алгебры # Описание обратного распространения ошибок с помощью матричной алгебры # # Глава Как работают нейронные сети # Глава Как работают нейронные сети Как мы фактически обновляем весовые коэффициенты # Как мы фактически обновляем весовые коэффициенты # # Глава Как работают нейронные сети # Глава Как работают нейронные сети Подготовка данных # Подготовка данных # Пример обновления весовых коэффициентов # Пример обновления весовых коэффициентов # # Глава Создаем нейронную сеть на Python # Глава Создаем нейронную сеть на Python Простое введение в Python # Простое введение в Python # # Глава Создаем нейронную сеть на Python # Глава Создаем нейронную сеть на Python Проект нейронной сети на Python # Проект нейронной сети на Python # # Глава Создаем нейронную сеть на Python # Глава Создаем нейронную сеть на Python Набор рукописных цифр MNIST # Набор рукописных цифр MNIST # # Глава Несколько интересных проектов # Глава Несколько интересных проектов Собственный рукописный текст # Собственный рукописный текст # # Глава Несколько интересных проектов # Глава Несколько интересных проектов Проникнем в “мозг’’ нейронной сети # Проникнем в “мозг’’ нейронной сети # # Глава Несколько интересных проектов # Глава Несколько интересных проектов Создание новых тренировочных данных: вращения # Создание новых тренировочных данных: вращения # # Приложение А Краткое введение в дифференциальное исчисление # Приложение А Краткое введение в дифференциальное исчисление Прямая линия # Прямая линия # # Приложение А Краткое введение в дифференциальное исчисление # Приложение А Краткое введение в дифференциальное исчисление Кривая линия # Кривая линия # Наклонная прямая линия # Наклонная прямая линия # # Приложение А Краткое введение в дифференциальное исчисление # Приложение А Краткое введение в дифференциальное исчисление Усовершенствованный способ применения дифференциального исчисления # Усовершенствованный способ применения дифференциального исчисления # Применение дифференциального исчисления вручную # Применение дифференциального исчисления вручную # # Приложение А Краткое введение в дифференциальное исчисление # Приложение А Краткое введение в дифференциальное исчисление Дифференциальное исчисление без использования графиков # Дифференциальное исчисление без использования графиков # # Приложение А Краткое введение в дифференциальное исчисление # Приложение А Краткое введение в дифференциальное исчисление Функции функций # Функции функций # Закономерности # Закономерности # Вы освоили дифференциальное исчисление! # Вы освоили дифференциальное исчисление! # Вы освоили дифференциальное исчисление! # Вы освоили дифференциальное исчисление! # # Приложение Б Нейронная сеть на Raspberry Pi # Приложение Б Нейронная сеть на Raspberry Pi Установка IPython # Установка IPython # # Приложение Б Нейронная сеть на Raspberry Pi # Приложение Б Нейронная сеть на Raspberry Pi # Приложение Б Нейронная сеть на Raspberry Pi # Приложение Б Нейронная сеть на Raspberry Pi Проверка работоспособности программ # Проверка работоспособности программ # Успех Raspberry Pi # Успех Raspberry Pi # Успех Raspberry Pi # Успех Raspberry Pi # Предметный указатель # Предметный указатель # Предметный указатель # Предметный указатель # # Предметный указатель # Предметный указатель # Предметный указатель # Предметный указатель